- 1、本文档共91页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第7章 基于认知模型的信息抽取
7.1 原理
7.2 基于本体的信息抽取
7.3 基于知网的信息抽取
7.4 基于HNC理论的信息抽取
7.5 基于混合模型的信息抽取
7.1 原理
认知科学是一门研究智能系统的内部结构、 功能和工作原理的科学, 用信息加工的观点来研究认知结构和认知过程 。
7.2基于本体的信息抽取
7.2.1 本体的概念
本体是用于描述或表达某一领域知识的一组概念或术语。
本体的分类:
(1)领域本体
(2)问题求解模型:以问题的求解方法为描述对象的本体
(3)表示本体:以知识表示语言为描述对象的本体
本体的作用:
(1)本体的重用特性,可避免重复的领域知识
(2) 统一的术语和概念使知识共享成为可能
7.2.2 本体建模
本体包含有五个最基本的建摸基元:类、关系、函数、公理和实例
1、类/概念:从语义上讲, 类是具有相同性质实例的集合, 它描述了领域中的不同概念
2、关系:领域中概念的相互作用。
Part-of: P(car,wheel) kind-of: K(wheel,front-wheel) attrbute-of: A(car,color)
instance-of : I(car,Lincoln)
Direct_Contain(x,y) 满足:
Contain(x,y) 满足:
关系的交、并、差
3、函数
用该关系的前n-1个元素(属性)可以唯一确定第n个元素。
4、公理
公理是公认的事实或推理规则, 是用来知识推理的
5、实例
唐太宗和李世民所表示的是同一个人
7.2.3 本体描述
本体实例:
7.2.4 基于本体的信息抽取逻辑结构
(1)在领域专家的帮助下,建立和美.e更域的本体。
(2) 收集信息源中的数据, 并参照已建立的本体, 把收集来的数据按规定的格式存储在元数据库中。
(3)查询转换器按照本体把查询请求转换成规定格式,从元数据库中匹配出符合条件的数据集合。
(4)检索的结果经过定制处理后,返回给用户
结构图
介绍几个应用系统:
1、KEUOA 系统
包含(1)基于Ontology的构建组件,允许用户浏览并构建相关的零散信息
(2)学习组件,用来从示例中学习信息规则,还有一个信息抽取控件用来抽取实体之间的关系
四个步骤: 浏览、 标注、学习和信息抽取
(1)浏览:用户可以选择任意的浏览器
(2)标注:语义的标注指的是使用事先在 Onto1ogy上定义的标注集来标注文本
(3)学习:这个阶段使用标注的文本作为训练集,然后从中学习关系
(4)信息抽取:信息抽取(IE)系统的目的是从文本中抽取专门的(指定的)信息
这个系统主要的工作是在于把模板驱动的信息抽取的引擎和一个 ontology 的引擊集成起来用来支持必要的语义内容并消除抽取信息的二义性 (包括除了如WordNet等字典以外的推理能力) 。
2、 Artequakt系统
Artequakt项目利用一个基于 Ontology的知识抽取工具来实现连续的知识支持和引导信息抽取。 这个抽取工具能够捜索在线文档, 并且把其中符合事先定义好的结构的知识抽取出来。它利用一种机器能够理解的格式来提供知识,并且这种知识库中的知识能够自动地维护完善 。
Artequakt的体系结构包括三个主要模块:
①知识抽取工具从句子或者段落中搜集信息条目,从网络文程当中手工挑选或者通过适当的有哪些信誉好的足球投注网站引撃技术自动获得
②Ontology服务器存储和强化了信息,使得传记生成工具能够使用推理引擎来査询 KB知识库。
③Artequakt服务器能够通过简单的网络界面把用户需求产生成描述。
3、 OFEE 系统
OFEE是一个基于 Ontology的汉语新闻摘要的模糊事件抽取代理系统
OFEE代理包含三个子代理:信息检索代理(RA)、文件处理代理(DPA)和模糊推断代理(FIA)
首先RA自动获取电子新闻并存储到电子新闻知识库同时,它也把电子新闻发送给 DPA 和 SA;然后再DPA中进行分词和中文术语的抽取;最后FIA利用中文术语集和中文电子新闻Ontology推导出用于抽取电子新闻的事件 Ontology
7. 3 基于知网的信息抽取
知网(英文名称为 HowNet)是一个以汉语和英语的词语所代表的概念为描述对象, 以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。 知网是一个知识系统,而不是一部语义词典。
7.3.1 引言
1.问题的提出
( 1) 自然语言处理系统最终需要更强大的知识库的支持。
(2)知识是一个系统,是一个包含着各种概念与概念之问的关系,以及概念的属性与属性之间的
文档评论(0)