- 1、本文档共131页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PAGE 1
第一部分 基于文本的数据挖掘
第一章 绪论
1.1问题的背景
对数据的分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。因此在科学技术、工农业生产以及工商业领域,数据分类、文本分类都起着至关重要的作用,例如人类基因序列的识别、电子商务、图书的分类、有哪些信誉好的足球投注网站引擎、动植物的分类等。同时,随着计算机技术的飞速发展,人们现在可以利用计算机自动的或者辅以少量的人工帮助,对大量的数据进行快速、准确的分类,人们称这种自动(半自动)的分类方法为分类器。近年来,随着Internet 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。机器学习中所谓的文本分类,即是对所给出的文本,给出预定义的一个或多个类别标号。
按文本语料的性质和应用需求的不同,文本自动分类可分为基于分类体系的自动分类和基于信息过滤和用户兴趣的自动分类。基于分类体系的分类一般要经过特征提取、文本表示、分类模型训练和分类几个步骤。基于信息过滤(Information Filtering)的自动分类的目的是为用户自动过滤掉那些用户所不感兴趣的信息从而为用户提供个性化服务,节省用户时间。
文本分类作为组织和管理数据的一种有力手段,可以被应用于抽取符号知识、发布新闻、过滤电子邮件、学习用户兴趣从而个性化网页服务等方面。目前常用的文本分类器有K-最近邻分类器(K-NN Classifier), Na?veBayes 分类器和支持向量机分类器(Support Vector Machines Classifier)等。
1.2技术发展现状
文本分类是文本挖掘(Text Mining)[19]的一个重要应用方面。文本挖掘是由数据挖掘衍生而来的。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。因此,数据挖掘也体现在对一些事实或观察数据的集合中寻找模式并提出决策支持的过程。
预处理后数据选择 善而从 择择择预处理转换挖掘分析和同化?
预处理后数据
选择 善而从 择择择
预处理
转换
挖掘
分析和同化
被转换的数据被选择的数据逻辑数据库被同化的知识被抽取的信息
被转换的数据
被选择的数据
逻辑数据库
被同化的知识
被抽取的信息
?
?
?
?
图1-1 数据挖掘流程图
文本分类(Text Categorization 或Text Classification)是在已给定的分类体系下(文本集),依据文本的内容或对文本的标识信息等,通过分类程序的学习和运算等处理方式,自动地确定文本所关联的类别。从数学角度来看,文本分类是一个映射的过程,即系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律从而建立并关联判别公式和判别规则;当分类器遇到输入的未标明类属的新文本时,根据总结出的判别规则,确定该文本相关联的类别。这种映射可以是一一映射,也可以是一对多的映射。文本分类映射的数学公式可表示为:
其中,A为待分类的文本集合,B为分类体系中的类别集合。
长期以来,文本分类都是自然语言处理的一个重要的应用领域。直到80年代末,在文本分类方面占主导地位的一直是基于知识工程的分类方法,即由专业人员手工编写分类规则来指导分类,其中最著名的系统是为路透社开发的Construe系统。90年代以来,随着信息存储技术和通信技术的迅猛发展,大量的文字信息开始以计算机可读的形式存在,并且其数量每天仍在急剧增加。这一方面增加了对于快速、自动的文本分类的迫切需要,另一方面又为基于机器学习的文本分类方法准备了充分的资源。于是,机器学习中的很多分类方法开始在实际应用中流行起来。
1.3全文安排
本文实现了基于支持向量机方法的文本分类器,分类器算法的核心为一个采用线性核函数的支持向量机。全文的组织如下:
第一章 绪论,介绍数据挖掘和文本分类的发展情况,为下文做基础。
第二章 支持向量机算法的提出和基于SVM的分类器的设计。该章首先介绍支持向量机的提出,理论基础和实现方法,然后说明了它的发展并将其与其它算法进行了比较,并说明经典支持向量机的优缺点和适用范围。
第三章 支持向量机分类器程序的编程实现。该章详细说明了支持向量机分类器实现的整体架构以及各部分的实现细节,包括重要函数功能说明和样本集的格式等。
第四章 分类器程序运行演示及结果分析。该章说明了基于支持向量机的分类器的实现方法,同时介绍了编程实现的环境和使用的样本集(训练集,测试集),最后展示了分类器在不同的样本集和参数设定下的运行
文档评论(0)