基于深度学习的不完整大数据填充算法.docVIP

下载本文档

6
0
约2.14千字
约 6页
2017-02-19 发布于河北
举报
版权申诉

基于深度学习的不完整大数据填充算法.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度学习的不完整大数据填充算法

基于深度学习的不完整大数据填充算法　　1引言　　随着互联网、社交网络及电子商务技术的兴起和发展，数据正以前所未有的速度增长。大数据的研究和应用时代己经到来。在大数据的采集和传输过程中，每个环节都可能出现故障，导致很多大数据集中存在着大量的缺失。大数据的不完整性为大数据的分析和处理带来巨大的挑战。因此，不完整数据的填充对大数据的分析和处理具有重要的意义。　　近些年，国内外研究人员提出了很多不完整数据填充方法。包括基于最大期望的数据填充算法叫基于模糊聚类的填充算法以及基于最近邻对象的填充算法等。这些算法在填充小规模数据集方面取得了显著的效果。然而在填充不完整大数据方面，精度急剧下降。这是由于大数据存在着丰富的信息维度，而传统的数据填充算法不能体现大数据的深度特征。　　针对这个问题，本文提出一种基于深度学习的不完整大数据填充算法。　　2填充自动编码机　　本文构建的深度填充网络以填充自动编码机为基础模块，从完整数据子集中随机采取一部分数据对象作为实例训练填充自动编码机的网络参数。在构造填充自动编码过程中，使用选中的数据对象模拟缺失数据对象，随机地将每个实例数据对象的部分属性值置，模拟不完整对象作为填充自动编码机的输入，通过最小化重构数据与实例原型来训练网路参数。　　根据随机梯度下降算法，每当从数据集中选择一个实例进行训练，填充自动编码机首先随机地选择该实例的部分属性，将其属性值置。，得到一对数据，然后通过如下公式对自动编码机的权值进行一次更新。如此更新网络参数，直到整个网络趋于稳定。　　3深度填充网络与数据填充　　本文以填充自动编码机为基础模块，构建三层网络模型。每一层网络输出都将作为上一层网络的输入，最上层作为提取的特征输出。训练过程分为预训练和微调两个阶段。首先自下而上地进行逐层训练获得网络初始化参数，最终通过反向传播算法对全局参数进行微调。　　为了获取网络逐层训练监督对象，首先利用实例数据作为输入构建叠加自动编码机，获得实例数据的两层特征。本文以未经处理的原始实例数据二作为网络输入，在最下层可获取第一层特征，把特征作为上一层网络的输入，获得第二层特征，该训练过程是局部的，即第二层网络更新本层的网络权重，对下层网络没有影响。通过这种方式可以初始化叠层网络参数，最后通过反向传播算法对网络全局参数进行微调。如此能够获得对应于原始数据实例的两层特征。　　从数据中逐一取出实例对深度实例网络进行训练，每训练一次，对网络参数进行一次更新，直到整个网络趋于稳定，获得最终的网络参数。在获得网络参数之后，本文首先抽取不完整数据集中每个数据对象的深度特征。对于不完整数据对象二而言，首先将其缺失属性的属性值置。　　4实验分析　　为了验证本文提出的算法(DLDBI)的有效性，将本文提出的算法和两种填充算法FIMUS和DMI进行对比。本文采用的数据集采自数字家庭与无线传感网络实验室，数据集总量达到10U每个数据对象包含650个数值属性。我们首先人为地从数据集中删除一部分数据，模拟不完整数据集，在填充完成之后，将填充值与真实值进行比较，得到算法的填充精度。　　本文人工制造两种缺失值，单模式缺失和多模式缺失。在单模式缺失中，每个数据对象只允许含有一个缺失值，多模式缺失则允许每个数据对象含有多个缺失值。本文分别从数据集中选择15%和10%的数据对象并删除这些数据对象的部分属性值，模拟缺失数据。本文使用两个标准来衡量算法的填充精度。第一个标准被称标准，该标准用于衡量填充值与真实值的匹配程度，对于任何一种缺失组合，本文提出的算法所得到的都明显高于其他两种算法。除此之外，随着数据缺失率的增大，算法FIMUS和DMI所得到的都在下降，即这两种算法的填充精度随着数据缺失率的增大面降低。而本文提出的算法的填充精度一直保持在一个很高的水平之上。因此，本文提出的算法的填充精度明显高于FIMUS和DMI。　　对于任何一种缺失组合，本文提出的算法所得到的RMSE都明显低于其他两种算法。随着数据缺失率的增大，算法FIMUS和DM所得到的RMSE不断升高，即这两种算法的填充精度随着数据缺失率的增大而降低。而本文提出的算法的得到的RMSE一直低。因此，就RMSE而言，本文提出的算法的填充精度明显高于FIMUS和DMI。　　本文提出的算法填充精度相对比较稳定。具体的说，当数据缺失率在1%到10%之间，值能够稳定的保持在。此外，对于任意一种缺失率而言，单缺失模式的填充精度明显高于多缺失模型的填充精度，这是因为多填充模式缺失数据大，对特征提取和还原造成的干扰高于单缺失模式。　　5结束语 LPUBd 　　本文提出