基于概念格的Web文本挖掘方法.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
石油、天然气工业

大 庆 石 油 学 院 学 报 第 33卷 第 3期 2009年 6月 JOURNALOFDAQINGPETROLEUM INSTITUTE Vo1.33 No.3 Jun. 2009 基于概念格的Web文本挖掘方法 张 楠 ,于 波。 (1_黑龙江八一农垦大学 信息技术学院,黑龙江 大庆 163319; 2.哈尔滨理工大学 软件学院,黑龙江 哈尔滨 150080) 摘 要 :概念格在本质上描述对象和属性之间的联系,表 明概念之间的泛化和特化关系.研究 了概念格模型的建立 方法,应用概念格的理论,提出一种将非结构化的web文本与其特征之间的关系通过概念格模型描述 出来的方法.利用 特征集合表示 Web文本模型的方法 ,可以建立概念格所需要的形式背景.构造实例表 明,利用构造的概念格能够有效地 抽取隐含在 Web文本中潜在的、有价值的知识,提高Web文本 的检索性能. 关 键 词 :Web文本 ;概念格 ;知识抽取 ;文献检索 中图分类号 :TP274.2 文献标识码 :A 文童编号 :1000—1891(2009)03—0108—04 面对信息的海洋 ,如何准确有效地检索 Web信息,帮助用户从大量 Web文本信息集合 中找到与给定 查询请求相关的文本子集,已成为一项重要的研究课题.有哪些信誉好的足球投注网站引擎是一种最为常见的Web文本信息检索 系统,它虽然部分地解决了Web上资源发现的问题,但它往往会返回给用户成千上万个检索到的网页,而 其中很大一部分与用户的检索要求无关.为此,需要开发 比有哪些信誉好的足球投注网站引擎检索技术更高的新技术,这就是Web 文本挖掘.笔者将形式概念分析的核心数据结构一概念格应用于web文本挖掘上.概念格在本质上描述 对象和属性之间的联系,表明概念之间的泛化和特化关系,作为数据分析和知识处理的形式化工具 ,概念 格理论已被广泛地应用于知识工程、数据挖掘、信息检索、软件工程等领域[1].为了通过概念格将非结构 化的Web文本与其关键词之间的关系呈现出来 ,笔者提出一种将 Web文本用概念格来表示 的新方法 ,就 是将 Web文本信息用特征集合模型表示出来 ,从而可 以利用描述对象和属性之间关系的概念格来表示. 考虑到web文本具有很强的动态性,使用渐进式的Godin算法[2来构造概念格. 1 概念格模型 概念格的每个节点都是一个形式概念 ,由2部分组成 :外延 ,即概念所覆盖 的实例;内涵,即概念 的描 述.该概念覆盖实例的共同特征.概念格能够通过 Hasse图体现概念之间的泛化和特化关系,反映出一 种概念层次结构,实现对数据的可视化,非常适用于从数据库中进行知识挖掘.因此,它被认为是进行数 据分析和规则提取的有效工具.为了对概念格有一个清楚地 阐述 ,先引入几个必要的定义. 定义 1:一个形式背景 (context)是一个三元组 K一(G,M,D包括 2个集合 G和M ,以及 G和M 间的 二元关系J.G中的元素称为对象,M 中的元素称为形式背景的属性.为了表示一个对象 g和一个属性m 有关系,记作 gIm或 (g,)∈ ,读作 “对象 g有属性 ”. 定义2:对集合A G,定义A 一{EMIgImforallgEA)(具有集合A 中所有属性对象的集合);相 应的,对集合 B M ,定义 B一{gEGIgImforall EB)(具有集合 B中所有属性对象的集合). 定义3:形式背景 K一(G,M,j)的一个形式概念是一个二元组 C一(A,B),其中A G,B M,并且满 足A 一B和B 一A.A 是形式概念C一(A,B)的外延,B是形式概念 C一(A,B)的内涵.用 口(G,M,)表 示形式背景K一(G,M,I)的所有形式概念的集合. 收稿 日期 :2009一O3—30;审稿人 :唐国维 ;编辑 :王文礼 作者简介 :张 楠(1976一),男 ,硕士 ,助教 ,主要从事计算机信息处理方面的研究 · 108 · 第 3期 张 楠等:基于概念格的Web文本挖掘方法 定义4:在形式背景的所有概念的概念p(G,M,J)上能定义一个偏序关系 ,假定 H 一(X ,X)∈p(C, M,I)和H =(y,y)∈p(G,M,,),定义

文档评论(0)

fengbing + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档