基于hadoop的数据挖掘算法并行化与实现1.1预案.docVIP

基于hadoop的数据挖掘算法并行化与实现1.1预案.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop的数据挖掘算法并行化研究与实现 摘要 随着互联网技术的发展和云计算技术的流行,提供网络服务的互联网公司每天生成和需要处理的数据呈爆炸式增长,海量数据已经逐渐将我们包围。数据的不断增长给人们带来了巨大价值,同时也给人们带来了巨大的挑战。如何分析和挖掘这些数据背后隐藏的有价值的信息,已经成为很多大型企业所关注的焦点。 大规模文档信息资源的自动化处理是海量数据处理中较受关注的一个领域,企业通过对文本数据进行分类,不仅可以对数字资源进行有效的整理,而且保证数字资源被全面检索和充分利用,满足用户对信息咨询服务的需求。但同时互联网企业产生的文本数据又具有海量,复杂等特点,面对现在飞速增长的文本数据,传统采用单机来处理的方式已经逐渐满足不了人们的需求,如何高效率的对海量文本进行分类整理并且挖掘出有价值的信息,这是本文的一个关注的问题。 Hadoop是目前最流行的用于处理海量数据的开源分布式框架。Hadoop主要的组件包括HDFS和MapReduce。HDFS是Hadoop集群提供的分布式文件系统,而MapReduce是一种分布式框架,通过这两者的结合,可以对海量的文本数据进行有效的处理。本文研究了Hadoop进行分布式处理的步骤和原理,在其基础上设计并实现了基于Hadoop的分布式文本分类系统,通过与单机系统处理结果的对比,论证了Hadoop系统在进行文本分类时的效率要高于单机,并且取得良好的分类效果。 目录 基于hadoop的数据挖掘算法并行化研究与实现 1 第一章 绪论 3 1.1 课题研究背景 3 1.2 研究现状 4 1.2.1 Hadoop研究现状 4 1.2.2 文本分类研究现状 5 1.3 本文的主要工作 5 1.4 论文的组织结构 5 第二章 Hadoop分布式框架概述 6 2.1 什么是Hadoop 6 2.2 HDFS分布式文件系统 7 2.2.1 HDFS设计思想 7 2.2.2 名字节点和数据节点 7 2.2.3 块的概念 9 2.2.4文件系统命名空间 9 第三章 文本分类的原理 16 3.1 向量空间模型 16 3.2 中文分词 17 3.3 特征选择 18 3.3.1 卡方检验 19 3.3.2 信息增益 19 3.4 特征权重计算 20 3.4.1 什么是特征权重 20 3.4.2 TF/IDF 20 3.4.2 特征权重与特征选择的区别 21 3.5 文本分类算法 21 3.5.1朴素贝叶斯方法 21 3.5.2 支持向量机(SVM) 22 3.6 文本分类的评价体系 28 3.6.1 准确率(Precision)与召回率(Recall) 28 3.6.2 F值(F-measure) 28 第四章 基于Hadoop平台的文本分类系统的设计 29 4.1 环境搭建与实验设计 29 4.1.1 系统环境配置 29 4.1.2 Hadoop集群配置 32 4.2文本表示过程的并行化 35 4.2.1 预处理和中文分词并行化 35 4.2.2 特征选择并行化 36 4.2.3 TF/IDF计算并行化 37 4.3 基于朴素贝叶斯文本分类的并行化 37 4.4 基于SVM文本分类的并行化 38 4.4.1 SVM并行化 38 4.4.3 MapReduce实现 41 4.4.4 基于Hadoop的SVM实现 42 第一章 绪论 1.1 课题研究背景 我们处在一个数据爆炸的时代,随着互联网技术的发展和云计算技术的流行,互联网正以海量的数据资源和咨询信息丰富着人们的日常生活,网络数据规模正以几何式增长!仅仅以互联网技术的发展为例,各种微博,论坛,社交网站等网站如雨后春笋般层出不穷。据统计,目前全球的Web站点已经达到数亿个,而且还在飞速增长中。网络上各种电子书籍、门户新闻、信息咨询等服务内容在满足人们网络服务需求的同时,也给对海量的数据处理带来了巨大的挑战。 在海量数据处理问题中,文档自动分类成为处理和组织大量文档数据的关注焦点。在数字图书馆中,对数字文本进行准确高效的分类是保证数字资源被全面检索和充分利用的基础。在门户网站中,对实时新闻的准确快速分类是满足人们获得良好的咨询服务的关键。文本分类是文本处理领域的重要研究内容之一,其任务就是在预先给定的分类模型下,系统在学习各类的训练文档的基础上,根据文本的内容让计算机自动判断、预测未知类文档的类别。文本分类技术已经应用于信息检索、信息抽取、数字化图书馆、新闻门户、网上信息快速定位等多个领域。 文本自动分类是通过分析被分类文档的特征,并与其他各类文档所具有的共同特征进行比较,将被分类文档归于特征最接近的一类并赋予相应类别。常用的文本分类方法有K近邻( KNN) 方法、朴素贝叶斯(

文档评论(0)

希望之星 + 关注
实名认证
文档贡献者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档