- 1、本文档共59页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言处理与Web知识工程-北京大学.ppt
自然语言处理与Web知识工程 穗志方 szf@ 北京大学 信息科学技术学院 计算语言所 内容 知识工程与Web知识工程 Web知识工程中的NLP技术研究 基于NLP的知识工程实践 知识工程 什么是知识工程? 1977年,美国斯坦福大学计算机科学家费根鲍姆教授在第五届国际人工智能会议上提出“知识工程”的概念; 知识工程是用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段; 以知识为处理对象,借用工程化的思想,研究如何用人工智能的原理、方法和技术为设计、构造和维护知识型系统服务,是人工智能的一个应用分支; 知识工程的目的是在研究知识的基础上开发智能系统; 知识的表示、知识的获取和知识的运用构成知识工程的三大要素。 Web知识工程——机遇与挑战 海量性与开放性 知识需求精细化 不确定性 多源异构性 Web知识工程——机遇与挑战 冗余性 半结构化 网络百科 用户日志 有哪些信誉好的足球投注网站引擎API Web知识工程——机遇与挑战 在Web知识提取中,如何充分利用Web资源特有的各种优势,从多源异构、海量、开放的网络文本中准确地提取各种知识组成要素,是实现Web知识获取的一个关键问题。 从NLP的角度看知识工程 知识获取技术研究:利用NLP技术进行文本挖掘——分析自然语言文本,发现知识点以及知识点之间的概念关系,辅助进行知识获取; 知识型系统工具的建立:在知识系统的开发环境中,集成基于NLP的知识获取技术,利用自然语言处理技术将领域专家的劳动降到最低,解决知识获取的瓶颈问题。 自然语言处理与知识工程 基础与应用 以知识工程为应用背景和实验平台,驱动、促进和检验相关NLP的理论、方法与技术; 以NLP技术为工具,辅助进行知识工程的实践。 内容 知识工程与Web知识工程 Web知识工程中的NLP技术研究 基于NLP的知识工程实践 Web知识工程中的NLP技术 利用自然语言处理和文本挖掘技术实现本体知识库的自动进化与扩充,使得大规模知识库的快速构建成为可能。 一个知识本体的自动生成过程 一个知识本体的自动生成过程 一个知识本体的自动生成过程 术语自动提取 概念属性的自动学习 概念层级结构的自动生成 单元度=内部结合紧密度+边界自由度 领域度=基于领域部件+分类语料库 语料预处理模块 对输入语料进行分词和串频统计 单元度计算模块 单元度计算综合考虑词串内部的结合紧密度以及词串之间的边界自由程度。根据串频统计的结果计算所有词串的单元度,并把单元度高于阈值的词串作为候选术语。 术语部件特征计算模块 从领域术语词典中提取术语部件,并利用术语词典统计术语部件的位置模板特征权值,以及利用两个规模相近的领域语料库和通用语料库统计术语部件的领域特征权值。 领域度计算模块 利用术语部件特征计算模块得到的术语部件特征,对单元度计算得到的候选术语计算领域度,并综合单元度和领域度计算候选术语的综合权值并按该权值对候选术语降序排列输出。 知识元自动挖掘模块 准确率: 基本假设 WWW海量网页信息的冗余性有利于属性值自动提取 频繁出现的短语很可能是目标短语,利用网页信息的冗余性辅助计算机判断获取的信息的可靠性和权威性 互联网数据足够大,只选取简单的语法结构即可保证信息的完备性 概念学习与层级关系自动提取的互动方法 概念提取;非典型性肺炎 属性值提取:“非典型性肺炎”的症状、用药、并发症….. 概念层次关系提取:非典型性肺炎-肺炎-呼吸系统疾病 概念学习与层级结构自动提取的互动方法 概念内涵与外延之间具有反变关系,即:概念的内涵增加,则外延缩小;概念的内涵减少,则外延扩大。 假设1——基于层级关系推断属性值:如果概念A是概念B的下位概念,那么概念A很可能继承概念B的属性值;(下位概念继承上位概念的所有属性) 假设2——基于属性值推断概念层级关系:如果A的属性值集合是B的属性值的子集,那么A很有可能是B的上位概念。(内涵越丰富,外延越小) 概念学习与层级关系自动提取的互动方法 知识元数据库自动构建流水线工作平台 内容 知识工程与Web知识工程 Web知识工程中的NLP技术研究 基于NLP的知识工程实践 基于NLP的领域知识工程实践 项目名称: 知识元数据库及基础平台建设 中国出版集团科技项目 合作双方: 北京大学计算语言所 中国大百科全书出版社 合作时间: 2005年8月-2009年7月 研究目标 建立知识元数据库及其基础平台。面向社会、面向不同知识层次的人群,提供知识服务。 目前的信息服务只能提供表层信息,不能准确地提供知识,更不能实现不同领域知识之间的相互贯通。 由信息服务转化为知识服务! 核心理念:从语言到知识 在统一的知识表达架构之下整合不同领域、不同类型的知识资源,形成网状、互联、包含各领域核心知识的知识元数据库,并配套提供知识库
文档评论(0)