- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于朴素贝叶斯的文本挖掘算法研究 摘要: 从大量的数据中挖掘出有用的信息是数据挖掘的任务。随着互联网的迅速发展,web已经发展成为拥有上亿页面的分布式信息空间。在信息急剧丰富的同时经过加工的知识信息却相对匮乏,文本是互联网上主要的信息载体,因此文本挖掘就成为数据挖掘中日益流行而重要的研究课题。文本分类技术是文本挖掘的基础和核心。 本文首先对文本分类和贝叶斯分类模型作了分析和探讨,包括文本信息的提取,文本分类的方法以及贝叶斯方法用于文本分类的模型和算法。然后针对上述朴素贝叶斯文本分类方法的不足之处,在训练文本时,对特征选择后产生的特征项集用互信息方法考察它们相互之间的相关性,然后对相关程度较高的特征进行适当的合并处理分类器上,我们进行了一系列的测试工作,并得到了严格的实验数据,这些实验数据都表明:这个文本分类器可以获得更好的分类效果。 关键字:数据挖掘;文本分类;朴素贝叶斯 Abstract: The task of data mining is mining useful information from a mass of data. Texts mining is becoming one of the focuses of data mining with the rapid development of the Internet because that text is the main information carrier of web pages. The text classification is the base and center of texts mining. First of all, this paper described text classification, the content includes text information extracting and the method of text classification. Subsequently article discussed Bayes classifier model and algorithm. Specifically for breaking the confine of independence hypothesis on Naive Bayes classification method, While training the text, the higher characters to relevant intensity carries out amalgamation, the experimental data indicates, this method can improve the algorithm accuracy appreciably. Keywords: Data mining; Text classification; Naieve bayes 1前言 在现实生活中,许多领域都不断产生海量数据,特别是海量的文本数据。怎样从这些数据中抽取和发掘有用的信息和知识已成为一个日趋重要的问题。由于这个原因,文本数据挖掘虽是一个新兴学科,但已成为一个引人瞩目,发展迅速的领域。 从20世纪90年代开始,自动文本分类系统被越来越多的学者所研究,用到的方法包括决策树、基于规则的分类器、朴素贝叶斯分类器、神经网络、支持向量机(SVM)、最小二乘法、k最近邻等。决策树文本分类器通过信息增量、信息增益率等指标选择最富含信息的特征词,建立决策树进行分类等。和其他分类器相比,决策树的优点在于运算速度较快,但缺点是分类能力较弱。基于规则的分类器利用DNF规则进行分类,其重点在于如何提取出有分类能力的规则。在文本分类领域,研究学者建立的基于规则的分类系统有CHARDE,DL-ESC,RIPPER等。基于规则的分类器的优点是模型可解释性强,容易理解,缺点是采用基于贪心学习的有哪些信誉好的足球投注网站策略,一般只能获得局部最优,可能只对某些类别有较高的分类准确率,而且对于较长的文档,分类准确率较低。 2理论基础 贝叶斯理论起源于18世纪,英国牧师托马斯.贝叶斯发明了一个对于概率运算和风险决策非常有用的定理,被称作“贝叶斯定理”,即对条件概率的陈述,但由于当时贝叶斯定理在理论和实际应用中还存在很多不完善的地方,因而并未被普遍接受。但是20世纪以后,特别是随着计算机理论的发展,为人们解决不确定性问题提供了条件与需要,由于计算机的快速发展与R益成熟,到了二十世纪八十年代以后,人工智能逐渐成为一个新的研究热点,尤其是机器学习和数据挖掘等研究领域的兴起,使贝叶斯理论得到了更为广阔的发展和应用空间。人工智能一个重要问题就是对不确定性的知识
文档评论(0)