贰现代汉语短语结构自动分析面临的问题及短语结构歧义的类型.PDF

贰现代汉语短语结构自动分析面临的问题及短语结构歧义的类型.PDF

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
贰现代汉语短语结构自动分析面临的问题及短语结构歧义的类型

面向中文信息处理的现代汉语短语结构规则研究 第四章 现代汉语短语结构歧义类型分析及分布统计 §4.1 从计算机处理的角度看现代汉语短语结构歧义 在上一章对短语结构组合规则的具体分析中,为说明一些规则约束条件的用意,我们已 经举了不少计算机分析汉语短语结构时碰到的歧义例子。这样的歧义问题都是计算机分析汉 语的结构必须面对的困难,有效的解决歧义问题无疑对中文信息处理有重要的理论和实际意 义。要解决问题,对问题本身的性质、造成问题的原因、以及问题的难度到底有多大,事先 有个清晰的认识,显然是必要的。尤其值得注意的是,从计算机处理的角度考虑歧义问题, 跟从人的角度考虑歧义问题1,有很大不同。本章就在已有的短语结构规则基础上,以计算 机处理为背景,对汉语短语结构歧义做更为全面系统地分析整理。 2 目前我们主要是从定界歧义和结构关系歧义两方面来看短语结构歧义 。所谓定界歧义, 也就是短语结构的层次切分歧义。层次切分歧义通常会伴随着结构关系歧义。而所谓结构关 系歧义,则是指两个成分发生组合,能以不同的关系形成一个组合体。实际中发生的短语结 构歧义几乎总是同时包含这两个方面。 要发生短语结构的定界歧义,一定是发生在三个以上的成分之间。考虑最简单的情形, 我们以三个符号形成的线性序列为考察对象,分析可能造成短语结构定界歧义的排列格式。 假定 A、B、C 为三个任意的符号标记,“ABC”即是一个由这三个标记排列形成的格式。就组 合情况来讲,这个格式存在以下六种可能性: (1)AB+C; 如:[[缺 水] 地区] [[办 完] 手续] (2)A+BC; 如:[许多 [职业 军人]] [打击 [走私 活动]] (3)ABC; 如:[美女 和 野兽] [激动 得 流泪] (4)AB C; 如:[监狱 看守] 和 [香港 特区] 最 (5)A BC; 如:的 [幸福 家庭] 了 [计算机 科学] (6)A B C; 如:在 了 屋顶 完 饭 看 前三种是 A、B、C 三者之间可能发生结构组合关系构成一个结构整体的情况。后三种是 A、B、C 三者之间或者只能局部构成结构体,或者干脆互不相干,总之是不能构成一个结构 整体的情况。广义而言,上述六种情况都可以称为对于 “ABC”这个序列的解释。换句话说, 也就是 ABC 这个抽象的形式有六种可能的解释方式(意思)。而对一个具体的“ABC”序列, 通常是以其中的一种或几种方式来进行解释,如果只能以一种方式进行解释,则该序列是无 歧义的,如果可以有一种以上的方式来解释,则该序列是有歧义的。 需要特别说明的是,所谓一个具体的“ABC”序列,可以指上面像“缺水地区”这样的 三个词排列形成的具体的短语,也可以指像“ap np np”这样的由抽象的短语功能类排列形 成的格式 (只不过比起“ABC”来说,“np np vp”显得更 “具体”一些),还可以指像 “vp np 的”这样的既包含抽象的短语功能类标记,又包含具体的汉语词形成的格式。不难看出,一 个格式抽象还是具体,是相对而言的。在面对人的歧义研究中,比较关注由具体的词语符号 排列造成的歧义,如 “咬死猎人的狗”这样的歧义例子。而面对计算机的歧义研究,则除了 注意这种具体的歧义例子外,更重视像“vp np 的 np”这样抽象的歧义格式的研究。通过 对抽象的歧义格式的研究,可以对所有具体的歧义例子进行全面系统地归类整理。从计算机 分析自然语言的方式来讲,也是以对抽象的规则进行操作为中介,来控制对具体的语词符号 进行分析的。显然,在比具体的歧义例子更抽象的模式歧义层面分析短语结构的歧义格式, 96 第四章 现代汉语短语结构歧义类型分析及分布统计 对计算机而言,具有更重要的意义。此外还有一点需要强调,就是面对人分析歧义,往往是 指出有歧义就达到目的了,因为指出歧义后,人可以通过诸多知识来判断实际使用中应该如 何来准确地理解或者表达。但计算机却不一样,指出歧义只是解决实际问题的起点而不是终 点。必须找到切实的可以用来排除歧义的因素,并形成一定的范畴,以一定的规则表达成形 式化知识,计算机才能以它作为判断

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档