商务智能理论与应用9-文本挖掘讲解.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
商务智能理论与应用9-文本挖掘讲解

信息检索的度量方式 {relevant}:与某查询相关的文档的集合。 {retrieved}:系统检索到的文档的集合。 {relevant} ∩ {retrieved}:既相关又被检索到的实际文档的集合。 查准率(precision):既相关又被检索到的实际文档与检索到的文档的百分比。 查全率(recall):既相关又被检索到的实际文档与查询相关的文档的百分比。 模型质量的评价实例 {relevant} ={A,B,C,D,E,F,G,H,I,J} = 10 {retrieved} = {B, D, F,W,Y} = 5 {relevant} ∩ {retrieved} ={B,D,F} = 3 查准率:precision = 3/5 = 60% 查全率:recall = 3/10 = 30% B,D,F 相关并被检索 到的文档 所有文档 A,C,E,G, H, I, J 相关的文档 W,Y 被检索到的文档 文本挖掘举例 文档向量化 查询:相关度 文档间相似度(余弦定理) 3.文本的维度规约 对于任何一个非平凡的文档数据库,词的数目T和文档数目D通常都很大,如此高的维度将导致低效的计算,因为结果频度表大小为T*D。 高维还会导致非常稀疏的向量,增加监测和探查词之间联系的难度。 维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。如果原数据可以由压缩数据重新构造而不丢失任何信息,则该数据归约是无损的。如果我们只能重新构造原数据的近似表示,则该数据归约是有损的。 文本挖掘方法 文本挖掘功能层次 关键词 相似检索 词语关联分析 自然语言处理 文本聚类 文本分类 文本挖掘功能层次 (1)关键词检索 关键词建立倒排文件索引,与传统的信息检索使用的技术类似。 (2)相似检索 找到相似内容的文本。 (3)词语关联分析 聚焦在词语(包括关键词)之间的关联信息分析上。 (4)文本聚类和文本分类 实现文本的聚类和分类。 (5)自然语言处理 揭示自然语言处理技术的语义,进行文本语义挖掘。 关联分析挖掘 在文本数据库中,每一文本被视为一个事务,文本中的关键词组可视为事务中的一组事务项。即文本数据库可表示为: {文本编号, 关键词集} 文本数据库中关键词关联挖掘的问题就变成事务数据库中事务项的关联挖掘。 关联分析挖掘可以用于找出词或关键词间的关联。 关联分析挖掘 输入语义信息,如事件、事实或信息提取发现的实体 输入是标记的集合 输入是文档中关键词或词的集合 基于关键词的方法 标记方法 信息提取方法 关联分析挖掘 关联分析过程: 对文本数据进行分析、词根处理、去除停词等预处理,再调用关联挖掘算法 基于关键词的关联技术:收集频繁出现的关键词或词汇,找出其关联或相互关系 关联挖掘 关联挖掘有助于找出符合关联,即领域相关的术语或短语 关联分析挖掘 基于关键字的关联分析 基于关键字关联分析就是首先收集频繁一起出现的项或者关键字的集合,然后发现其中所存在的关联性 关联分析对文本数据库进行预处理,生成关键字向量,根据关键字查询向量与文档向量之间的相关度比较结果输出文本结果,然后调用关联挖掘算法 文档分类分析 文档分类分析 自动文档分类是指利用计算机将一篇文章自动地分派到一个或多个预定义的类别中 文档分类的关键问题是获得一个分类模式,利用此分类模式也可以用于其他文档的分类 有了一个模式之后,需要进行人工标记和训练,以确定这个模式的参数,然后才能进行自动的文档分类 文档分类分析 应用领域 门户网站(网页) 图书馆(电子资料) … 自动分类优点: 减小人工分类的繁杂工作 提高信息处理的效率 减小人工分类的主观性 文档分类分析 步骤 定义分类体系 将预先分类过的文档作为训练集 从训练集中得出分类模型(需要测试过程,不断细化) 用训练获得出的分类模型对其它文档加以分类 文档分类分析 文本分类基本步骤 文档分类分析 文本分类过程 文档分类分析 特征选择 方法 贝叶斯分类 最近邻分类 相似文档具有相似文档向量,将每个文档关 联到相应的类标号 将文档分类看做计算文档在特定类中的统计分布 文档分类 支持向量机 使用数表示类,构建从词空间到类变量的直接映 射函数(在高维空间中运行良好,最小二乘线性 回归方法区分能力较强) 基于关联的、频繁出现的文本模式集对文档分类 基于关联的 分类 删除文档中与与类标号统计不相关的非特征词 文

文档评论(0)

4477704 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档