863手写汉字识别测试平台1.pdfVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
863手写汉字识别测试平台1 刘昌平钱跃良张永慧宋东李丰林 中国科学院计算所 北京2704信箱智能中心,100080 摘要:本文详细介绍了用于1998年4月在北京举行的全国863评测 手写汉字识别测试平台的情况,如测试大纲、测试样本的选择与分 类、测试结果等,并提出了作者的一些看法和建议. 一、前言 为提高国内汉字识别、语音识别、语音合成和自然语言处理研究的技术水平,国家科 委基础研究和高技术司、国家863高技术计划智能计算机系统主题专家组每两年就要举办 一次全国范围的评测活动.由国家科委基础研究和高技术司、国家863高技术计划智能计 算机系统主题专家组、全国信标委非键盘输入分委员会共同组织的第五届全啻汉字识别、 汉语语音识别与合成系统及自然语言处理系统评测于1998年3月27日至4月9日在北京 举行。本文作者负责手写汉字识别的评测工作.考虑到国内手写汉字识别市场特别是联机 手写汉字识别的市场形势,在国家科委基础研究和高技术司和863专家组的大力支持下, 评测组想办法邀请到了美国的摩托罗拉公司、台湾的蒙恬公司参加联机手写汉字识别系统 的评测,这是首次国内外研究开发单位的同场竞技,扩大了评测的知名度,并且极大地刺 激了国内研究人员的积极性,从最终的结果来看,国内的联机手写汉字识别研究进展惊人, 已在识别率方面全面超过美国和台湾的竞争者。 参加本次评测的研究开发单位是历次评测中最多的,参加脱机手写汉字识别测试的有 中自汉王公司、中科院自动化所AI实验室、北京邮电大学、清华大学计算机系、武汉工 业大学、清华大学电子工程系.参加联机手写汉字识别测试的有中自汉王公司、清华大学 电子工程系、北京大学计算所、美国摩托罗拉公司、台湾蒙恬公司. 考虑到以前的多次评测没有形成规范的测试平台,因此863专家组在下达测试任务 时,提出在组织好1998年评测的前提下,同时形成手写汉字识别测试的标准样本库的要 求。 本文将介绍863手写汉字识别测试平台的测试大纲、测试样本格式、测试样本的选择 和分类、1998年的测试结果及分析等。 二、测试大纲 (一)、联机手写汉字识别测试大纲 1.测试内容: 联机手写汉字识别系统的识别率与识别速度。 本课恿得到863.306资助,合同号为863—306一03—04—1 —33— 2.测试字集范围: 国标GB2312-80中的一级和二级汉字。 3.测试样本数量: 样本数量为50套,共338150字,其中工整书写30套,自由书写20套. 4.测试样本的数据格式: 测试样本每套一个文件,扩展名为POT。 5.测试样本收集办法: 由各家参加测试的单位每家提供30套POT样本(其中工整书写的20套,自由书写的lo 套),浏试组将另行收集50套样本,最后由涌试组从所有样本中选取50套测试样本。为 保证公平合理,将从各家提供的样本中提取相同数量的样本。 6.输出格式: 识别结果存成标准TxT文件形式.文件中汉字国标GB2312.80内码表示。一个样本 的识别结果占一行。连同首选字,一行共10个候选字。 7.测试指标 测试结果统计首选识别率、前十候选识别率、误识率、拒识率、识别速度以及系统故 障次数,同时将记录识别系统所占的内存和磁盘容量。为使评测更接近实用化,最后的识 别率将根据汉字的使用频度表来加权计算,初步决定将国标GB2312.舳中的一级字的加 权系数定为2/3,二级字的加权系数定为1,3。 8.测试操作办法 由被测单位提供识别软件和操作说明书,由测试人员统一进行操作.测试平台为DOS, PWINDOWS 3.2和PwI}ⅡX煽,S95。供被测系统调试用的实验样本将在测试开始前2周 提供给被测单位. 9.故障处理 9.1被测系统应具备侦知故障出现在那一个样本上的能力. 9.2故障发生时,处理方法如下: o测试人员记录一次故障次数 0将故障样本从测试样本文件中去掉.重新从头测试 。将故障字记录为误识字 9.3若被测系统无法完成9.1时,则故障以后的所有样本均统计为误识。 (二)、脱机非特定人手写识别测试大纲 1.测试内容

您可能关注的文档

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档