人工智能的文本分类方法简述.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(人工智能)人工智能的文

本分类方法简述

人工智能的文本分类方法简述

摘要:本文阐述了壹些基本的文本分类的方法,以及壹些改进的文本文类的方法,且包含了壹些文本分类的实际应用。其中着重阐述了贝叶斯分类以及壹些其他的的文本分类方法。最后提出了当下文本分类方法中存于的壹些问题。

关键词:文本分类;贝叶斯方法;数据挖掘;分类算法。

引言

文本分类是指于给定分类体系下,根据文本内容(自动)确定文本类别的过程。20世纪90年代以前,占主导地位的文本分类方法壹直是基于知识工程的分类方法,即由专业人员手工进行分类。目前于国内也已经开始对中文文本分类方法进行研究,相比于英文文本分类,中文文本分类的壹个重要的差别于于预处理阶段:中文文本的读取需要分词,不像英文文本的单词那样有空格来区分。从简单的查词典的方法,到后来的基于统计语言模型的分词方法,中文分词的技术已趋于成熟。且于信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了初步的应用。

人工智能的基本方法就是对人类智能活动的仿真。小样本数据能够见作是壹种先验知识不完全的数据集。人类于处理类似的决策问题时,通常采用的策略为:1,利用多专家决策来提高决策的可信度;2,专家的决策技能于决策的过程中能够得到不断的增强 ,即专家具有学习功能;3,于专家的技能得到增强的基础上,再进行决策能够提高决策的正确性。

这种方法同样适用于小样本数据的分类识别。通过对上述方法的仿真,本文提出了智能分类器,它不仅能够对未知样本进行分类,同时它仍具有多专家决策、预分类和学习功能。

分类的基本概念

分类就是根据数据集的特点找出类别的概念描述,这个概念描述代表了这类数据的整体信息,也就是该类的内涵描述,且使用这种类的描述对未来的测试数据进行分类。

分类的过程壹般分为俩个步骤:第壹步,通过已知数据集建立概念描述模型;第二步,就是

利用所获得的模型进行分类操作。

对各种分类方法的评估能够根据以下几条标准进行:1)预测准确率,指模型能够正确预测未知数据类别的能力;2)速度,指构造和使用模型时的计算效率;3)鲁棒性,指于数据带有噪声或有数据遗失的情况下,模型仍能进行正确预测的能力;4)可扩展性,指对处理大量数据且构造相应有效模型的能力;5)易理解性,指所获模型提供的可理解程度。

常用的分类算法

基于决策树的分类

所谓决策树就是壹个类似流程图的树型结构,其中树的每个节点对应壹个非类别属性,每条边对应这个属性的每种可能值,而树的每个叶结点代表壹个类别(如图1)。生成决策树的壹个著名的算法是Quinlan提出的ID3算法,ID3算法从树的根节点处的所有训练样本开始,选取壹个属性来区分这些样本,属性的每壹个值产生壹个分支。将分支属性值的相应样本子集移到新生成的子节点上。这个算法递归地应用于每个子节点,直到壹个节点上的所有样本均分区到某个类中。

属性选择采用信息增益的方法来确定。选择具有最高信息增益(熵减少的程度最大)的属性作为当前结点的测试属性,这样保证所产生的决策树最为简单,工作量最小。设S为壹个包含了S个数据样本的集合,且类别属性能够取m个不同的值{C1,C2……,Cm}。假设Si为类别Ci中的样本个数;则对壹个给定数据对象进行分类所需要的信息量为:

其中pi=si/s。

设壹个属性 A取v个不同的值{a1,a2……,av},利用属性 A将S划分为 v个子集

{S1,S2……,Sv},设Sij为子集Sj中属于Ci类别的样本数。那么利用属性A划分当前样本集合所需要的信息(熵)能够按如下公式计算:

这样利用属性A对当前分支结点进行相应样本集合划分所获得的信息增益就是:

通过之上公式计算每个属性的信息增益。选择具有最高信息增益的属性作为给定集合S的测试属性,创建壹个节点,且以该属性标记,对属性的每个值创建分支,进行样本

划分。

ID3算法于选择属性时利用了信息增益的概念,算法的基础理论清晰;决策树的每个分支均对应壹个分类规则,因此产生的分类规则易于理解;同时,分类速度较快,准确率较高。可是ID3算法也存于着许多不足:1)不能够处理连续值属性;2)计算信息增益时偏向于选择取值较多的属性;3)对噪声较为敏感;4)于构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;5)只适合于能够驻留于内存的数据集使用,当训练集大得无法于内存容纳时程序无法运行。

ID3的改进算法有C4.5,C4.5用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择属性值多的属性的不足。此外,于树构造过程中或构造完成后进行剪枝,提高了抗噪声能力;能够对连

文档评论(0)

tianya189 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体 阳新县融易互联网技术工作室
IP属地湖北
统一社会信用代码/组织机构代码
92420222MA4ELHM75D

1亿VIP精品文档

相关文档