- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于非参数贝叶斯模型的聚类算法
第26卷第4期,2013年l0月 宁 波 大学 学 报 (理 工 版 ) 首届中国高校优秀科技期刊奖
Vo1.26No4,Oct.2013 JOURNALOFNINGBOUNIVERSITY(NSEE) 浙江省优秀科技期刊一等奖
一 种基于非参数贝叶斯模型的聚类算法
张媛媛
(宁波大学 信息科学与工程学院,浙江 宁波 315211)
摘要:鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术,并且与监督学习不同的是聚
类分析 中没有类别或标签的指导信息,所以如何选择合适的聚类个数(re模型选择)一直是聚类
分析 中的难点.由此提 出了一种基于Dirichlet过程混合模型的聚类算法,并用collapsedGibbs采
样算法对混合模型的参数进行估计.新算法基于非参数贝叶斯模型的框架,能够在不断的采样
过程中优化模型参数并形成合适的聚类个数.在人工合成数据集和真实数据集上的聚类实验结
果表明:基于Dirichlet过程混合模型的聚类算法不但能够 自动确定聚类个数 而且具有较强灵活
性和鲁棒性.
关键词:非参数贝叶斯模型;Dirichlet过程混合模型;聚类分析;Gibbs采样
中图分类号:TP391 文献标志码:A 文章编号:1001—5132(2013)04—0024—05
聚类分析是指在没有类别或标签信息的情况 能力较弱,尽管对训练样本数据拟合得较好,但对
下,将一组数据(或模式)进行分类的统计分析方法. 未知数据可能拟合不好.
经过聚类分析后,属于同类的数据比在不同类中 针对以上 问题 ,笔者设计实现了一种基于
的数据更具相似性.经典的聚类算法有 K均值聚 Dirichlet过程混合模型(DirichletProcessMixture
类算法(KmeansAlgorithm)、基于EM(Expectation Model,DPMM)的非参数聚类方法.它为模型选择
Maximization)优化的有限混合模型(FiniteMixture 问题提供了一个比较灵活的解决之道,是一种非
Models)算法以及基于密度的方法 (Density.based 参数贝叶斯模型(NonparametricBayesianModels),
Methods)等[】].但是这些算法都需要预先设定聚 也是近年来统计学习理论的研究热点4【J.与传统
类或混合部件的个数,若个数选择不当会直接导 的参数模型相比,DPMM 采用单一复杂的混合模
致模型的过拟合或欠拟合情况的发生.因此,如何 型,并根据观测数据 自动优化模型的结构,使模型
选择合适的聚类个数是聚类分析的关键,也是模 的分布参数随着观测数据进行调整 【卜引.实验结果
式分类中的模型选择问题.针对此问题,一种直接 表明,当 DPMM 用于聚类分析时,无需预先指定
的解决方式是尝试所有可能聚类个数的模型结构, 类别数,而是根据观测数据 自动计算 目前所需的
然后根据一定准则折中选取一个最优的、不易发生 类别数,并以概率方式允许将来的新数据出现时
过拟合或欠拟合的模型.常见评价方法有基于编 产生新的类别.在计算 DPMM 后验概率时,由于
码理论和最小信息长度的准~]Jl(Minimum Message 后验概率不能被直接计算,所以我们采用Gibbs采
Length,MML)、Akaike信息准~]1(Akaike’SInforma 样法反复从条件分布 中采样并更新模型参数.
tionCriterion,AIC)、贝叶斯信息准则(Bayesian Gibbs采样法属马尔可夫链蒙特卡罗方法(Markov
InformationCriterion、BIC)和最小描述长度准则 ChainMonteCarlo,MCMC),是替代精确推理的近
(Minimum DescriptionLength,MDL)J.但是现有 似推理方法.和其它MCMC算法一
您可能关注的文档
最近下载
- 《膝关节前后交叉韧带损伤》课件.ppt VIP
- 产钳和胎头吸引助产课件.pptx VIP
- 前交叉韧带损伤学习课件.pptx VIP
- GeForce GTX 1070Ti显卡电路图纸参考 PG411 Rev A00.pdf VIP
- 2025-2026学年小学美术五年级上册人美版·北京(主编杨力)(2024)教学设计合集.docx
- 学堂在线 生活英语进阶 章节测试答案.docx VIP
- 一汽-奔腾B50-产品使用说明书-奔腾B50 2014款1.6MT伙伴-CA7165MT4-B50伙伴用户手册.pdf VIP
- 八年级数学下册重难点压轴题突破专项(苏科版)06平行四边形(五大题型,45题)含答案与解析.pdf
- 角膜地形图与圆锥角膜.ppt VIP
- 2025四川内江市总工会招聘工会社会工作者14人笔试备考题库及答案解析.docx VIP
文档评论(0)