- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
自动问答系统中问句分类研究综述
镇丽华;王小林;杨思春
【摘要】问句分类作为问答系统所要处理的第一步,在问答系统中起着至关重要的
作用,其准确性直接影响最终抽取的答案的正确性.从问句分类的概念出发,先对问句
分类体系、特征提取、问句分类方法等进行阐述,然后重点分析了用于问句分类的
几个主流学习模型,并对几个模型作了比较分析,最后指出了当前问句分类的研究难
点和未来的研究方向.
【期刊名称】《安徽工业大学学报(自然科学版)》
【年(卷),期】2015(032)001
【总页数】8页(P48-54,66)
【关键词】问答系统;问句分类;特征提取;分类模型
【作者】镇丽华;王小林;杨思春
【作者单位】南通大学管理学院,江苏南通226019;安徽工业大学计算机科学与技
术学院,安徽马鞍山243032;安徽工业大学计算机科学与技术学院,安徽马鞍山
243032
【正文语种】中文
【中图分类】TP391
问答系统是目前自然语言处理和信息检索领域的一个研究热点,它允许用户以自然
语言形式提出问题,并采用自然语言处理技术自动地将简洁、正确的回答返回给用
户[1-2]。与传统的有哪些信誉好的足球投注网站引擎相比,问答系统能更好地满足用户从互联网上快速、
准确地获取信息的需求。
问答系统一般包括问句分析、信息检索和答案抽取3个主要部分[3-4],典型问答
系统的体系结构如图1所示。其中,问句分类作为问答系统的首要环节,为系统
知道用户想要寻找什么类型的答案提供重要信息。
问句分类是指在确定的分类体系下,根据问句的内容自动地确定问句关联的类别
[5],这种对应关系可以用一种映射函数来表示:
其中:X表示问句实例集合;{C1,C2,…,Cn}表示问句类别集合;G负责将未知类别
的问句x∈X根据先验信息或者某种规则映射到类别集合中的某个类别Ci中去。
问句分类的作用主要体现在以下2个方面:
(1)问句分类能够有效地减少候选答案空间,提高系统返回答案的准确率。例如,
用户输入查询语句“国际奥委会是什么时候成立的?”经过问句分类,知道这个问
句属于时间类,在答案抽取阶段,系统把不含时间的候选句子过滤掉,从而有效地
较少了候选答案空间。
(2)问句分类还能够决定答案选择策略[6-8],根据不同的问句类型调节对不同问
题的答案选择策略。如,对于问句“安徽省的简称是什么?”如果能分析出问题是
询问简写类别的,抽取文档中简写类的文档作为候选答案,这样定位和检验相应的
答案就显得相对容易。
问句分类作为问答系统一个重要的子模块,能够对问答系统的后续流程查找候选答
案和答案抽取有很好的指导作用,一个好的问句分类模块能够在很大程度上提高问
答系统的性能。
要对问句进行分类,首先就要知道问句有哪些类型,而问句的类型是由采用的分类
体系决定的。当前问句分类体系还没有统一标准,大多数研究人员根据分类依据的
不同将分类体系划分为3种:基于答案类型的问句分类体系[9]、基于问句语义信
息的问句分类体系[10]和基于混合信息的问句分类体系[11]。现有的问答系统大多
采用的是基于答案类型的分类体系,这种分类体系具有易建立、分类粒度细、覆盖
面广等优点,特别是具有层次结构的分类体系,能够提供更高的分类精度和更多的
约束条件。
在国际上比较权威的是UIUC的问句分类体系[8],它是个基于答案类型的层次分
类体系,把问句分为6个大类(ABBR,DESC,ENTY,HUM,LOC,NUM),
50个小类,每个大类包含着不重复的小类。表1给出了广泛应用于英文问句分类
的UIUC问句分类体系。
UIUC的分类体系是针对英文分类的。哈工大的文勖等[12]在国外已有分类体系的
基础上根据汉语自身特点,定义了表2所示的中文问句分类体系,含7个大类,
每个大类根据实际情况又定义了一些小类,共60小类。
中文问句分类体系在小类划分上更细致,较细的分类体系能够使得抽取的答案更精
确。然而,较细的分类体系势必会影响问句分类的准确率。这需要在今后的研究工
作中对问句分类的标准做进一步研究,最后能得到折衷的分类体系。
在对问句分类之前,要对问句进行预处理(分词、去除停用词),将问句表示成特
征向量。根据国外的相关实验,词袋特征是最常用的特征之一,即忽略词序、句法
及语法,将问句仅看成一个词的集合,这个集合中的词出现都是独立的,不依赖于
其他词的出现[13]。这显然与事实不符,所以单纯基于词袋进行问句分类精度并不
高,张
您可能关注的文档
最近下载
- 零售金融消费者权益保护专题报告 2024.docx
- 传感器与检测技术第四版胡向东习题答案.pdf
- 2023全国职业院校技能大赛-西式烹饪赛项备考试题库-下(多选题部分) .docx
- 保时捷Cayenne Turbo, Turbo S_2010款_汽车使用手册用户操作图解驾驶车主车辆说明书电子版.pdf
- 动物疫病防治员国家标准.doc VIP
- 爱戴尊敬荣光 麦克白 威尔第钢琴伴奏五线谱子.pdf VIP
- 新时代、新思维、新高考.pptx
- 2002年至2019年 西藏自治区15岁及以上文盲人口(人口抽样调查)统计.docx
- 医院应急预案及处理流程.docx
- 动物疫病防治员国家职业标准(三级).doc VIP
文档评论(0)