机器学习算法在数据挖掘中应用.docVIP

下载本文档

8
0
约2.25千字
约 5页
2017-06-14 发布于福建
举报
版权申诉

机器学习算法在数据挖掘中应用.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习算法在数据挖掘中应用

机器学习算法在数据挖掘中应用　　摘要：近些年，国内社会有了很大发展，各种先进技术和理念不断得到应用和发展，机器学习算法就是一种新型算法，在各行各业中都有很大作用。本文主要对机器学习算法在数据挖掘中的应用进行详细研究，首先借助大量移动终端数据，对GSM网络的户外终端进行有效定位，提出三个阶段的定位算法，进而使定位速度和精度有很大提高关键词：机器学习算法；数据挖掘；户外定位中图分类号：TP311 文献标识码：A 文章编号：1007-9416（2017）03-0166-01 1 数据挖掘概述在数据挖掘算法内，机器学习与统计算法是比较常见的两种，第一种是借助人工智能技术，可以在大量的样本集训练与学习之后，自动的找到运算所需的模式和?⑹?，第二种是借助判别和概率分析、聚类和相关性分析等开展运算，不同的算法也有不同对应的目标和领域，这些算法可以独自进行使用，也能够互相结合机器学习算法内人工神经网络这种方法应用范围比较广泛，具备很好的处理数据能力与自组织学习的能力，还可以进行准确的识别，进而有利于对分类型问题数据进行处理。可以借助建模进行工作，模型比较多样，可以对不同的需求进行满足，从整体出发，这一方法的模型具有较高精度，鲁棒性比较好，描述能力也比较强，进行应用时不需要借助专家的支持，但是也有一些缺陷，训练数据时需要花费较多时间，对知识进行理解时也不是很智能，伸缩性和开放性也存在局限 2 以机器学习算法为基础的GSM网络定位（1）定位问题的建模。以支持向量机定位方式为基础，把定位区域栅格化，较小的栅格区域被抽象成类别，然后在定位区域中收集大量终端测量信息，如果要对移动终端进行定位，就需要利用计算对接收测量报告，然后对栅格内村练技术划分收集报告相似性或者距离度量，进而对待定位移动终端栅格进行判断，使用机器学习对这一分类现象进行求解（2）采集数据和预处理。此次研究仿真数据都来自某一周边长是10km的城市，在这一区域的内部有4个时间不同的短路，测量得出4批数据，为了确保以机器学习方法进行定位的有效性，把利用线所测的3批数据当做训练数据，最后得到的数据集当做定位数据，对这批数据周围10米内，有前3组训练数据的集中数据进行删除。在得到待定位的数据之后，需要把不同时间的间隔当做依据，对然后把一致通话内相邻的定位数据进行合并，求取出相同通话内同一基站接受电平与多个相邻定位数据的经纬度平均值。把这一数值作为新的定位数据，因为在相同通话相邻的测量报告内，存在很强相关性，所以需要对其进行合并，然后进行定位，这样能够去噪，还可以极大的降低定位所需的数据量，进而有效提升定位精度和速度（3）以基站的经纬度为基础的初步定位。以机器学习为基础的移动终端定位计算的复杂性和使用机器学习的程度和定位区域的面积有正相关的关系，区域的面积越大，回归模型和分类也就更复杂，在定位移动终端时，就要对函数计算有更多的决策，所使用机器学习算法时，增加定位地区的面积，能够极大提升这一算法定位和训练时需要的时间复杂度。以基站的经纬度为基础进行初步定位，具体的步骤如下，需要把边长是10千米的正方形分成1千米的小栅格，如果对定位数据集内的数据进行定位操作，就把主服务小区的基站经纬度为基础对边长为1千米的栅格开展计算，因为时区中移动终端和主服务小区的基站一般有不超过500米的距离，如果要获取边长1千米的栅格，就说明定位中心是栅格边长是1千米的2千米栅格内，所以这是机器学习算法定位阶段定位的区域（4）以向量机为基础的二次定位。在进行初步定位后，选择一个2千米边长的正方形，因为第一级支持向量机定位的范围是400米，第二季向量机对100米栅格的待定数据进行输出，定位结果的输出也就是以100米栅格为核心的经纬度。和一级向量机的定位相比较，二级向量机在定位时计算的复杂度比较小，在分类后对向量机进行计算时主要是决策函数计算与待分类样本点所有类别向量机计算，如果得到的分类和全部向量机都有n数据，就要同时利用成对分类方法对众多分类问题进行处理。定位的精度会随栅格的变小而更高，因为增加分类的问题总量，定位的复杂度也得到增加，第一级向量机进行定位对栅格的大小进行选择时，要对第二级栅格的大小决定后，把第一级与第二级分类的问题总量的最小化为根据进行选择，保证在最小定位的阶段对总量进行计算（5）以K-近邻法为基础的三次定位。首先要确定定位的区域，在二次输出后输出经纬度，借助经纬度选择，选择边长区域，这是定位的基础。接着是定位模型的训练，K-近邻法定位方法在训练阶段需要集中训练的数据，以大小为参考依据进行合并，能够有效的减少定位运算的次数，但是选择的合并区域越大，定位的精度也就越低 3 结语综上所述，机器学习算法在数据挖掘中的应用具有重要意义，