自动问答系统中问句分类研究综述.pdf

自动问答系统中问句分类研究综述.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

自动问答系统中问句分类研究综述

镇丽华;王小林;杨思春

【摘要】问句分类作为问答系统所要处理的第一步,在问答系统中起着至关重要的

作用,其准确性直接影响最终抽取的答案的正确性.从问句分类的概念出发,先对问句

分类体系、特征提取、问句分类方法等进行阐述,然后重点分析了用于问句分类的

几个主流学习模型,并对几个模型作了比较分析,最后指出了当前问句分类的研究难

点和未来的研究方向.

【期刊名称】《安徽工业大学学报(自然科学版)》

【年(卷),期】2015(032)001

【总页数】8页(P48-54,66)

【关键词】问答系统;问句分类;特征提取;分类模型

【作者】镇丽华;王小林;杨思春

【作者单位】南通大学管理学院,江苏南通226019;安徽工业大学计算机科学与技

术学院,安徽马鞍山243032;安徽工业大学计算机科学与技术学院,安徽马鞍山

243032

【正文语种】中文

【中图分类】TP391

问答系统是目前自然语言处理和信息检索领域的一个研究热点,它允许用户以自然

语言形式提出问题,并采用自然语言处理技术自动地将简洁、正确的回答返回给用

户[1-2]。与传统的有哪些信誉好的足球投注网站引擎相比,问答系统能更好地满足用户从互联网上快速、

准确地获取信息的需求。

问答系统一般包括问句分析、信息检索和答案抽取3个主要部分[3-4],典型问答

系统的体系结构如图1所示。其中,问句分类作为问答系统的首要环节,为系统

知道用户想要寻找什么类型的答案提供重要信息。

问句分类是指在确定的分类体系下,根据问句的内容自动地确定问句关联的类别

[5],这种对应关系可以用一种映射函数来表示:

其中:X表示问句实例集合;{C1,C2,…,Cn}表示问句类别集合;G负责将未知类别

的问句x∈X根据先验信息或者某种规则映射到类别集合中的某个类别Ci中去。

问句分类的作用主要体现在以下2个方面:

(1)问句分类能够有效地减少候选答案空间,提高系统返回答案的准确率。例如,

用户输入查询语句“国际奥委会是什么时候成立的?”经过问句分类,知道这个问

句属于时间类,在答案抽取阶段,系统把不含时间的候选句子过滤掉,从而有效地

较少了候选答案空间。

(2)问句分类还能够决定答案选择策略[6-8],根据不同的问句类型调节对不同问

题的答案选择策略。如,对于问句“安徽省的简称是什么?”如果能分析出问题是

询问简写类别的,抽取文档中简写类的文档作为候选答案,这样定位和检验相应的

答案就显得相对容易。

问句分类作为问答系统一个重要的子模块,能够对问答系统的后续流程查找候选答

案和答案抽取有很好的指导作用,一个好的问句分类模块能够在很大程度上提高问

答系统的性能。

要对问句进行分类,首先就要知道问句有哪些类型,而问句的类型是由采用的分类

体系决定的。当前问句分类体系还没有统一标准,大多数研究人员根据分类依据的

不同将分类体系划分为3种:基于答案类型的问句分类体系[9]、基于问句语义信

息的问句分类体系[10]和基于混合信息的问句分类体系[11]。现有的问答系统大多

采用的是基于答案类型的分类体系,这种分类体系具有易建立、分类粒度细、覆盖

面广等优点,特别是具有层次结构的分类体系,能够提供更高的分类精度和更多的

约束条件。

在国际上比较权威的是UIUC的问句分类体系[8],它是个基于答案类型的层次分

类体系,把问句分为6个大类(ABBR,DESC,ENTY,HUM,LOC,NUM),

50个小类,每个大类包含着不重复的小类。表1给出了广泛应用于英文问句分类

的UIUC问句分类体系。

UIUC的分类体系是针对英文分类的。哈工大的文勖等[12]在国外已有分类体系的

基础上根据汉语自身特点,定义了表2所示的中文问句分类体系,含7个大类,

每个大类根据实际情况又定义了一些小类,共60小类。

中文问句分类体系在小类划分上更细致,较细的分类体系能够使得抽取的答案更精

确。然而,较细的分类体系势必会影响问句分类的准确率。这需要在今后的研究工

作中对问句分类的标准做进一步研究,最后能得到折衷的分类体系。

在对问句分类之前,要对问句进行预处理(分词、去除停用词),将问句表示成特

征向量。根据国外的相关实验,词袋特征是最常用的特征之一,即忽略词序、句法

及语法,将问句仅看成一个词的集合,这个集合中的词出现都是独立的,不依赖于

其他词的出现[13]。这显然与事实不符,所以单纯基于词袋进行问句分类精度并不

高,张

文档评论(0)

. + 关注
官方认证
内容提供者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地河南
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档