[工学]硕士论文答辩.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[工学]硕士论文答辩

对阿拉伯口语数据集进行了测试,该数据集显示了阿拉伯口语数字的梅尔频率倒普系数时间序列,数据来自阿拉伯本地的44位男性和44位女性。该数据集曾应用于语音识别等领域[49]。数据集包含两部分,一部分用于实验测试,共有87063条实例,另一部分用于实验训练,共有269856条实例,两个数据集中每行都含有13个梅尔频率属性。本实验截取测试数据集的部分数据,逐步增加测试用例,来检验PCA、KPCA与GKPCA的运行效率。 实验分别采取了189 个测试样例,选取提取效率 p=0.95,过滤阈值 =0.8,分组数为9,时间消耗如上图所示。 * * * * * MOA数据生成器产生数据流的速度是与计算机软硬件环境直接相关的,数据维数和噪声是影响数据流的两个重要因素。实验中由于硬件条件所限,数据流速与噪声比例设的都比较小,将算法DDCS-Clustering与CluStream进行比较分析. DDCS-Clustering算法选取参数为 ,epslong=0.01, minPoint=10,beta=0.001,mu=1.1, initPoint=1000, windowSize=1000。 CluStream算法的参数为windowSize=1000,maxNumKernals=80,kernalRadFactor=2。 在MOA中主界面如图所示. 运行界面如图所示,图中左侧为DDCS-Clustering算法的运行窗口,右侧为CluStream算法运行窗口。 * GKPCA降维算法 执行步骤 重新采样并进行分组,形成分组样本; 对每一组执行KPCA,并对样本进行过滤; 组合过滤后的样本,形成新的样本数据集,并再次执行KPCA算法; 获得GKPCA的特征投影 实验与分析(PCA、KPCA、GKPCA降维后数据分布图) 图3 原始数据分布图 图4 经过PCA降维后的数据分布图 图5 经过KPCA降维后的数据分布图 图6 经过GKPCA降维后的数据分布图 实验与分析(降维效果) 数据集或算法 实例数× 维数 降维数目 计算时间(秒) 原始数据集 187× 45 ---- ---- PCA 187× 27 18 0.050 KPCA 187× 24 21 1.290 过滤后样本 51 ×45 ---- ---- GKPCA 51 ×19 26 0.521 表1 SpectFTest降维结果 实验与分析 0 189 378 756 567 945 1134 1323 100 200 300 400 500 600 700 数据量 时间(s) 图例 PCA GKPCA KPCA 图7 三种算法的时间消耗图 实验与分析 实例数×维数 189×13 378×13 567×13 756×13 945×13 1134×13 1323×13 PCA 189×11 378×11 567×11 756×11 945×12 1134×12 1323×12 KPCA 189×9 378×9 567×9 756×9 945×9 1134×10 1323×10 GKPCA 84×7 169×8 266×8 346×8 429×8 481×8 579×9 表2 对于不同组别的梅尔频谱倒普系数的降维结果 四、分布式密度和中心点数据流聚类算法DDCS-Clustering 数据流的数学描述 分布式数据流模型 三种基本窗口模型 密度、中心点 DDCS-Clustering算法流程 实验与分析 数据流的数学描述 数据流可以理解成一个不断增长的d维元组集合 ,对任意 各元组时间戳为 ,对任意 , 三种基本窗口模型(1/2) 1. 界标窗口模型 Tb Tc X1 Xc Time axis 2.滑动窗口模型 Xi-N+1 Xi-N+2 Xi-1 Xi 当前窗口大小为N Xi* time axis 聚类数据对象 三种基本窗口模型(2/2) 3.衰减窗口模型 主要考虑了数据对象的权重,处理对象为数据从开始到当前 数据的集合,按照到达的先后顺序对数据赋予不同的权值, 一般情况下按某一指数衰减函数对其进行赋值。例如函数 是经常使用的衰减函数。 数据流聚类框架 无论采用何种窗口模型,其基本聚类框架类似。 输入数据流 数据流挖掘算法 内存中的概要 数据结构 数据挖掘请求 挖掘结果 图9 数据流聚类框架 分布式数据流聚类模型 Global Cluster S1 S2 SN … Users Requests Clustering Results Center Site site1 site2 siteN UpdateStream UpdateStream UpdateStream 图10 分布式数据流聚类模型 密度、中心点的含义(1/2) p q = 5cm r 密度:给定对

文档评论(0)

ipbohn97 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档