《Python自然语言处理》第07章-语义分析.pptVIP

《Python自然语言处理》第07章-语义分析.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于统计机器学习技术的语义角色标注 基于统计机器学习技术的语义角色标注通常情况下可以划分为剪枝、识别、分类和后处理4个步骤。 其中: 剪枝:剔除大部分的不可能作为语义角色的标注单元,经过剪枝之后,可以在很大程度上减少待识别实例的数目,提高系统的运行效率。 识别:对标注单元进行判断,如果实例为语义角色则保留该标注单元,可以减少进入分类判别的实例数目,加快处理的速度。 分类:进一步区分单元是属于哪一类语义角色。 后处理:根据语义角色之间的一些固有的约束进行后处理。固有约束一般是指一个谓语动词不能有重复的核心语义角色,而且语义角色也不能存在相互重叠或嵌套等情况。 基于统计机器学习技术的语义角色标注 在语义角色标注的4个步骤中,识别和分类两个步骤尤为重要。通常可以把角色标注看成分类问题。 基于规则的方法来解决分类问题,需要构建规模比较庞大的知识库,随着知识库的扩大随之产生了各种矛盾和冲突的规则。 机器学习的方法适用性较好。比如,Pradhan等人使用支持向量机进行语义角色标注、Carreras等人使用感知器方法进行语义标注,并且比支持向量机更快。另外AdaBoost算法、最大熵模型、决策树模型以及随机森林算法都先后用于语义角色标注。 基于统计机器学习技术的语义角色标注 影响语义角色标注系统性的主要因素是使用的特征,而不是机器学习的模型。所以,想要获得更好的性能,则需要更加精细的划分特征。 目前,由Gildea等人使用的语言学特征被当作各个语义角色标注系统的基本特征使用,如下3点: 1 句法成分 相关特征 2 谓词相关 特征 3 谓语动词-句法成分关系特征 基于统计机器学习技术的语义角色标注 1.句法成分相关特征 01 02 03 短语类型 句法成分核心词 句法成分核心词的词性 基于统计机器学习技术的语义角色标注 2.谓词相关特征 01 02 03 04 谓语动词原型 语态 子类框架 谓语动词的词性 基于统计机器学习技术的语义角色标注 3.谓语动词-句法成分关系特征 (1)句法树中,从句法成分到谓语动词之间的句法路径。 (2)句法成分和谓语动词之间的位置关系。 在Gildea等人的语言学特征基础之上,人们又不断开发出新的,更有效的特征,如句法框架、动词类别等特征。另外,通过对已有特征进行组合生成新的特征也有效提高了系统的性能。 本章小结 谢谢观看 语义分析 Python自然语言处理 第七章 CONTENT 01 词义消歧 02 词义角色标注 03 深层语义推理 课前回顾 词义角色标注 01 OPTION 02 OPTION 02 OPTION 格语法 基于统计机器学习技术 的语义角色标注 深层语义推理 在自然语言处理研究中,除了分析句子的表面含义之外,还需要推理出句子深层次语义,分析理解深层语义是当前自然语言处理领域中的重点和难点。 基于推理的语义分析主要是分析实体与实体之间的因果关系,常用的方法包括谓词逻辑、语义网络和概念依存理论等。 深层语义推理 0 3 谓词逻辑的发展 命题逻辑和谓词逻辑是最先应用于人工智能的两种逻辑,对于知识的形式化表示,特别是定理的证明发挥了重要作用。 谓词逻辑是在命题逻辑的基础之上发展起来的,命题逻辑可看作是谓词逻辑的一种能特殊性形式。谓词逻辑是人工智能中一个重要的知识表示方法。 命题逻辑 谓词逻辑 谓词逻辑是一种更强的逻辑形式。在谓词逻辑中,命题是用谓词来表示的。 一个谓词可分为谓词名和个体词两个部分。其中,个体词是命题中的主语,用来表示独立存在的事物或抽象的概念。谓词名是命题中的谓语,用来表示客体的性质、状态或客体之间的关系等。 谓词逻辑 谓词逻辑 谓词逻辑 谓词逻辑 深层语义推理 0 3 语义网络 语义网络是一种用实体及其语义关系来表达知识的有向图,由西蒙(Simmons)于1972年正式提出。 在一个语义网络中,信息被表达为一组结点,结点通过一组带标记的有向直线彼此相连,用于表示结点间的关系。 有向图的结点代表实体(entity)或者概念(concept),而有向图的边代表实体/概念之间的各种语义关系,比如说两个实体之间的相似关系。 语义关系主要由ISA、PART-OF、IS等谓词表示。 语义网络 三种语义关系 谓词ISA体现的是“具体与抽象”的概念,含义为“是一个”,表示一个事物是另外一个事物的一个实例,例: 2.谓词PART-OF指具有组织或者结构特征的“部分与整体”之间的关系。是一种包含关系。例如,“大脑时身体的一部分”这个命题 3.谓词IS指表示一个结点是另外结点的一个属性。例如,“北京是中国的首都”这个命题,如图: 语义网络 除了以上三种关系,语义网络的结点之间的关系还可以有施事(AGENT)、受事(OBJECT)、位置(LOCATION)等。例如,“狮

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档