基于SVM的汉语问句分类研究【文献综述】.docVIP

基于SVM的汉语问句分类研究【文献综述】.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
毕业设计文献综述 计算机科学技术 基于SVM的汉语问句分类研究 摘 要:问答系统是信息检索的高级形式,其中问句理解模块的问句分类任务能够为后续的信息检索模块缩小有哪些信誉好的足球投注网站范围,并有助于答案抽取模块制定抽取策略,对问答系统整体性能的提高具有重要作用。处在发展初期的中文问答系统尤其需要追求每个阶段的品质,所以汉语问句分类作为首要子过程极具研究价值。采取支持向量机的方法对汉语问句进行分类比较可行且有效,因为处理问题集得到的特征空间维数较高,支持向量机可以有效解决高维问题;问题向量特征相关性小,支持向量机能够不受特征独立性假设的影响;问题向量特征稀疏,支持向量机具有主动学习能力。此外,如果缺乏用于公测的问题集,支持向量机在自行构建的问题集上仍然可以得到相对最优的结果,具有良好的泛化和推广性。 关键词:问答系统;汉语问句分类;支持向量机;统计学原理 信息时代,网络发展日行千里,有哪些信誉好的足球投注网站引擎深入到知识工程的各个领域。人们生活中的科技含量飞速上升,信息需求与日俱增,对有哪些信誉好的足球投注网站引擎性能的要求也愈发苛刻。问答系统(Question Answering System,QA)正是在这个关键时期开发而成,它属于信息检索系统的高级形式,能够对自然语言表述的问题输出精准、明确的答案。 自 1999 年文本检索会议 ( Text REtrieval Conference, 简称 TREC) 引入问答系统评测专项 ( Question Answering Track, 简称 QA Track) 后, 各种研究机构对基于自然语言的问答系统再次产生了浓厚的兴趣, 在往年的 TREC比赛中, QATrack 是最受关注的评测项目之一。 在TREC的支持下,国外已经开发许多成熟的问答系统。在大规模开放域问答系统方面,有回答领域常识的Start,面向web在线问答的MULDER,具有语义分析功能的AskJeeves和支持多语种提问的AnswerBus等;而在受限域问答系统方面,英日德的发展水平较为领先,开发了旅游问答系统TCS和类似于垂直有哪些信誉好的足球投注网站引擎业务取向的专业领域问答系统等。 对问答系统的错误结果进行分析证明, 有 36.4%的错误是由于问句分类系统造成的。人工分类固然比较简单, 也不需要大规模的训练语料, 但分类比较粗糙, 而且可移植性较差。为了避免这些问题, 概率方法逐渐应用到问句分类当中并取得了很好的成绩。一些研究使用的概率方法是基于模板的匹配方法, 即每一种类型问题对应若干条模板, 新的问题利用这些模板分类。另一种概率方法是应用机器学习算法, 并且取得了较好的成绩。Zhang采用支持向量机 ( SVM) 对问句进行训练, 采用了一种 tree kenel 作为 SVM的核并利用少许简单的句法特征, 准确率达到了 90%。 英文的问句分类取得了较好的成绩,相比之下,汉语问答系统还没有显著的成果,业界的开发热情并不高涨,汉语问句分类还在研究起步阶段。主要原因是:汉语语言处理基础资源的极其匮乏,使得许多关键技术成为瓶颈,与英语相比, 汉语语法更复杂, 且顺序不定, 分析起来更麻烦。另外国家投入和重视程度也不充分。目前国内的一些高校和专有机构借助问答系统的思想开发了一些应用类的系统,做为科研或商业用途。哈尔滨工业大学是率先研究问答系统的高校之一,历经多年的不懈努力,硕果累累,涉及的领域面非常多元。 问句分类的目标是:以分类体系为模板,通过分析问句内容或判断问句模式而得到问句的类型。问句类型与分类体系的关系就相当于数学概念中的映射关系,也就是把未知类别的问题映射到已有的类别中。问句分类是问句理解模块的核心部分,主要有两方面作用:一、缩小信息检索范围,提高效率;二、指导答案抽取策略,提供类别信息。由此可见,信息检索和答案抽取两个模块的工作流程都需要问句分类输出的信息,问句分类的效果贯穿整个问答系统。 问句分类的处理对象是大量非结构化的用自然语言描述的无规律文本数据,在对问句特征提取前,需要对问句文本进行相应的预处理,处理结果的优劣直接影响分类效率和准确度以及最终模式的有效性。首先调用中科院开发的Java版ICTCLAS分词包,实现对汉语问句分词、词性标注、命名实体识别和新词识别等功能,其次,问句中的主谓、动宾、定语修饰等关系非常典型,尤其是疑问意向词指示鲜明,很大程度可以通过判断意向词得到问句类型,分类精度依赖待分类向量的特征稠密度,只有得到充分的信息才能保证准确性。而问题包含的信息非常少,提取出的有效特征往往不足十个,在高维空间中很难对稀疏向量归类,因此需要对原始问句中的关键词进行词义扩展。董振东和董强两位专家开发的《知网》(HowNet),是作为概念扩展的基础资源。 分类方法是基于统计学习理论的方法。通过对标注的语料统计学习,分析问句类型的特征分布规律,建立模型以实现分类。统计法

文档评论(0)

chengzhi5201 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档