文本分类的性能评价.doc

下载文档 降价啦

64
0
约1.81万字
约 26页
2018-05-01 发布于天津
举报
版权申诉
保障服务

文本分类的性能评价.doc

1、本文档共26页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

文本分类的性能评价

第一章绪论 1.1研究背景当今的时代，是一个信息技术飞速发展的时代。随着信息技术的飞速发展，科学知识也在短时间内发生了急剧的、爆炸性的增长。据1998年的资料显示[1]，70年代以来，全世界每年出版图书50万种，每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇，平均每天发表包含新知识的论文为1.3万-1.4万篇；登记的发明创造专利每年超过30万件，平均每天有800-900件专利问世。近二十年来，每年形成的文献资料的页数，美国约1,750亿页。另据联合国教科文组织所隶属的世界科学技术情报系统统计，科学知识每年的增长率，年代以来已从9.5％增长到10.6％，到年代每年增长率达12.5％。据说，一位化学家每周阅读40小时，光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年159,460,056个发展到200的24亿个 1.2文本分类的定义 1.2.1文本分类的定义文本分类是指依据文本语义内容将未知类别的文本归类到已知类别体系中的过程。文本分类有多个英文名称，如Text Categorization[5]、Text Classification[6]、Document Categorization[7]、Document Classification[8]以及Topic Spotting[9]等，现在比较常用的为Text Categorization (TC)。文本分类的形式化定义如下，假设有一个文本集合D = {d1,…,d|D|}和一个预先定义的类别集合C = {c1,…,c|C|}，二者之间的真实关系可由以下函数表示[5]： (1-1) 于是，自动文本分类问题可以转化为找到函数的近似表示： (1-2) 使得尽量逼近未知的真实函数。此处的函数称为文本分类器，力求真实反映文档和类别的关系，以便尽可能对未知类别的文本进行正确分类。文本分类根据分类算法的不同，可以分为两类分类算法和多类分类算法。所谓两类分类算法是指算法本质上只能进行两类分类，即只能判别文档属于两类中的某一类，如支持向量机算法；而多类分类算法是指算法可以同时对多个类别进行操作，即同时判别文档属于多类中的某一类或某几类，如KNN算法。两类分类算法应用于多类分类问题时，通常需要将一个多类分类问题转化为若干个两类分类问题来解决。具体转化方法将在本文第二章详细论述。另外，文本分类根据文档所属类别是否单一还可以分为单标号分类(Single-label Text Categorization)问题和多标号分类(Multilabel Text Categorization)问题。所谓单标号分类指文档的类别体系没有重合，一篇文档属于且只属于一个类别，而多标号分类是指文档的类别体系有重合，一篇文档可以属于多个不同的类别。 1.2.2自动文本分类过程现代自动文本分类技术涉及到人工智能、机器学习、模式识别和统计理论等多个学科，自动文本分类的过程实际上也是机器学习和模式识别的过程。图1-1为基本的分类过程。图1-1自动文本分类模型如其他机器学习问题一样，文本分类也包括训练和测试两个模块。训练模块由预处理、文本表示、特征选择(Feature Selection)、分类器(Classifier)和性能评价五个部分组成： 1. 预处理负责对训练集中的文本进行去除停用词、词干化(Stemming)、分词、统计等操作，并对文本进行去噪处理。此处对中英文分别采取不同的处理，英文使用空格进行分词[1,10]，而中文则需要根据语义进行分词[11-15]或采用N-gram法进行分词[16,17]。2. 文本把文本表示成分类算法可以识别的形式最常用的统计模型是由Salton等人提出的向量空间模型[18]，表示训练集中出现过的特征集合。 3. 特征5. 性能评价评价分类器对集的分类结果，如果性能达不到要求，返回特征选择阶段重新选择特征。分类模块由预处理、文本和分类器三个部分组成： 1. 常用的英文有Reuters、20newsgroups[20]、OHSUMED[21]等。目前还没有标准的中文，较多使用的有复旦天网等。为了避免产生过分适合的现象两不相交的训练集和测试集所谓过分适合指用训练集来测试分类器，产生较好的分类性能，但是别的文本进行分类时发生分类性能急剧下降的情况。 1.3”，采用贝叶斯公式进行文本分类，大大推进了文本分类工作。在该文中，Maron还假设特征间是相互独立的，这就是后来被广泛采用的“贝叶斯假设”。在随后的二十多年，主要是采用知识工程(Knowledge Engineering, KE)的方法进行文本分类[26]，它通过在专家知识基础上手工建立一系列分类规则来构建分类器。知识工程方法需要大量