中文文本信息处理的原理与应用-概论.pptVIP

中文文本信息处理的原理与应用-概论.ppt

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文文本信息处理的原理与应用-概论.ppt

中文文本信息处理的原理与应用 第一章 概论 主要内容 自然语言处理 中文信息处理 国内外研究机构及学术会议 课程目的和课程安排 自然语言处理 基本概念 发展历程 应用领域 发展趋势 基本概念 自然语言 指人类语言集团的本族语,如汉语、英语、日语等等。 人类历史上以语言文字形式记载和流传的知识占知识总量的80%以上。 应用问题 如何让计算机实现人们希望的语言处理功能? 如何让计算机实现海量语言信息的自动处理和有效利用? 基本概念(续1) 自然语言处理(Natural Language Processing) 利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类处理和加工的技术。 人工智能研究的重要内容之一。 —— 摘自冯志伟《自然语言的计算机处理》 基本概念(续2) 自然语言处理组成 自然语言理解:计算机能理解自然语言文本的意义; 自然语言生成:计算机能以自然语言文本来表达给定的意图、思想等。 基本概念(续3) “理解”的标准 问答(question-answering):机器能正确地回答输入文本中的有关问题; 文摘生成(summarizing):机器有能力产生输入文本的摘要; 释义(paraphrase):机器能用不同的词语和句型来复述其输入文本; 翻译(translation):机器具有把一种语言(源语)翻译成为另一种语言(目标语)的能力。 基本概念(续4) 自然语言处理 基本概念 发展历程 应用领域 发展趋势 自然语言处理的发展历程 40年来大体上经历了三个时期 60年代以关键字匹配为主流的早期 70年代以语法-语义分析为主流的中期 80年代开始走向实用化和工程化的近期 自然语言处理的发展历程 ELIZA 系统 1968?年, J.Weizenbaum在美国麻省理工学院设计的ELIZA系统,或许是这些基于“模式匹配”的自然语言系统中最有名的一个。 系统模拟一位心理治疗医生(机器)同一位患者(用户)的谈话。 /eliza/ /neurotoys/eliza.php3 http://www-ai.ijs.si/eliza-cgi-bin/eliza_script ELIZA的理解过程 某些词被立即翻译成适合于响应式的新形式。这些直接转换被立即执行,然后再进行其他模式的匹配。 ELIZA的理解过程(续1) 对于不存在匹配模式的情况,ELIZA专门设计了一个(0)模式,它可以同任意的输入句子匹配,并产生某些模棱两可的响应。 SHRDLU系统 SHRDLU系统是1972年T. Winogard设计的,是他在麻省理工学院的博士学位研究工作。SHRDLU是一个在“积木世界”中进行对话的自然语言理解系统。 具有智能地理解句子的功能,不仅包括语法,也包括单词的知识、句子的上下文以及他对于主题事务的理解。 SHRDLU系统对话脚本 第三阶段—繁荣期 机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。 其他系统如:日本日立公司开发的HICATS英日、日英机译系统,美国在乔治敦大学的机器翻译系统SYSTRAN,美国国家航空和航天的NASA系统,我国开发的英汉互译系统“译星”(TRANSTAR)等。 SYSTRAN系统 自然语言处理 基本概念 发展历程 应用领域 发展趋势 应用领域 机器翻译(Machine Translation, MT) 实现一种语言到另一种语言的自动翻译。 应用:文献翻译、网页翻译和辅助浏览等 举例: Systran系统() 口语翻译STL 应用领域(续1) 自动文摘(Automatic Summarization/Abstracting) 将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。 应用:电子图书管理、情报获取等 举例: 应用领域(续2) 信息检索(Information Retrieval) 也称情报检索,即利用计算机系统从大量文档中找到符合用户需要的相关信息。 面向多语言的信息检索叫做跨语言信息检索(Cross-language/Trans-lingual information retrieval)。 举例: Google: 百度: —— 目前已有300多亿个网页,每天几百万增加,获得的信息只有1%被有效利用。 应用领域(续3) 文档分类(Document Categorization) 也叫文本自动分类(Text Categorization/Classification),即利用计算机系统对大量的文档按照一

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档