- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1
文旅2D数字人技术规范
1范围
本文件规定了文旅2D数字人的术语和定义、制作要求、技术能力、应用场景、文旅数字资源库。本文件适用于文旅2D数字人的技术要求。
2规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其必威体育精装版版本(包括所有的修改单)适用于本文件。
3缩略语、术语和定义
下列缩略语、术语和定义适用于本文件。
3.1
文旅CulturalandTourism
文化和旅游。
3.2
文旅行业相关场所CulturalandTourismIndustry-relatedVenues
文旅景区、博物馆、文旅场所。
3.3
2D数字人2DDigitalHuman
形象为平面图像,其图形内容仅包含水平和垂直维度信息的,通过从真人视频中提取语音、唇
形、面部表情和其他特征,并使用语音、唇形、面部表情合成和深度学习技术进行训练的数字人。
3.4
文旅2D数字人CulturalandTourism2DDigitalHuman
文旅行业相关场所的虚拟共生服务角色,与游客实现面对面实时互动交流,为游客提供路线规
划、信息查询、导览讲解等智能服务,打造沉浸式的交互体验。
4使用场景
文旅2D数字人的使用场景分为:视频播报、智能互动、智能导览、数字讲解。
5文旅2D数字人应用系统框架
2
将文旅2D数字人系统分为六个部分:图像;语音;动画;技术能力;多模态输入和多模态输出。前四个部分与数字人角色本身密切相关,而最后两个部分是数字人需要具备的用于呈现或与多模态输
入输出设备进行交互的属性,如图1所示。
图1-文旅2D数字人应用系统框架
图像模块:提供文旅2D数字人的图像;
语音模块:可以根据文本生成与之对应的角色语音;
动画模块:可以根据文本生成角色动画,包括面部表情和身体动作。动画模块由智能驱动;
交互处理模块:使文旅2D数字人能够感知、识别、理解和做出决策,即通过语音识别和语义识别等智能技术识别用户输入信息,基于此理解用户意图,并根据用户当前意图决定文旅2D数字人的后续语音
和动画,从而驱动文旅2D数字人启动新的互动;
多模态输入模块:用于接收用户的输入;
多模态输出模块:用于向用户呈现输出。
5.1指标和规范描述
5.1.1图像
5.1.1.1人像录制时应保持面部完整出现在视频画面内,任何肢体动作(如挥手等手势)不遮挡脸部与颈部;全身数字人使用4K分辨率以上拍摄,半身数字人使用2K分辨率以上拍摄,并让人物在画面中占较大比例。
5.1.1.2拍摄环
境应保证光线充足且均匀,以防止视频出现过亮过暗或明暗不均;使用专业绿幕;使用绿幕时需离绿幕3-5m远,防止人物身上出现绿光影响效果。
5.1.1.3文旅2D数字人应当保持良好声屏形象,表演、服饰、妆容、语言、行为、肢体动作及画面展
3
示等要文明得体,符合大众审美情趣和欣赏习惯。
5.1.1.4文旅2D数字人形图像需要没有以下缺陷:严重的扭曲;严重的马赛克;明显的帧跳跃;其他
损伤。
5.1.1.5文旅2D数字人不能侵犯公民和法人的名誉权、荣誉权、个人隐私权、肖像权以及其他合法权益。
5.1.2语音
5.1.2.1避免杂音和干扰,语音发音需要清晰准确,自然流畅;需要录制不同的语音风格;录制时需要使用高质量的麦克风和录音设备。
5.1.2.2要求环境底噪35dBSPL,混响时间150ms,采样率48KHZ;样长16bit。语音平稳,语音振幅不高于-3dBFS,不低于-9BFS,不能出现截幅,喷麦现象。
5.1.2.3从文本合成语音的准确性应达到95%。不应有包括缺失声音、过度发音、语调错误等语音错误。
5.1.3动画
5.1.3.1数字人能够根据通过语音或者文字进行动画的输出,包括唇部可以根据输入的语言信息自动生成唇部动画参数,头部旋转要符合语音的时间序列节奏特征,整体身体协调多模式运动。
5.1.3.2能够在语音输入时快速生成对应的2D人像动作和表情,驱动延迟小于50毫秒;生成的2D人像动作和表情需要自然流畅,能够与语音输入形成良好的协调性。
6技术能力
6.1播报视频输出能力
文旅2D数字人拥有输入文字和上传语音生成播报视频的能力。
6.2语音互动能力
文旅2D数字人语音识别准确度应达98%,语义识别准确率达95%,以确保数字人能够正确地理解用户的语音指令和问题。
6.3
您可能关注的文档
最近下载
- [信息与通信]系统级电磁兼容量化设计技术.ppt
- 2023-2024学年天津市部分区八年级上学期期中数学试题.pdf VIP
- 小学科学物体的运动作业设计.docx
- 小鲤鱼跳龙门电子版.pdf
- 湖南单招信息技术基础知识题库及答案.docx VIP
- 人教小学英语六年级上册Unit_6_How_do_you_feel_单元整体作业设计优秀案例.pdf VIP
- 【人教版】小学六年级数学上册期中复习课件.pptx VIP
- 工业自动化中的自动化清洁与环境保护.pptx VIP
- 政权分立与民族交融(第01期)(解析版)-2024年中考历史试题分类汇编(全国通用).pdf VIP
- 第五章 羽毛球:.四方球战术 “米”字形移动练习 教学设计 2022—2023学年人教版初中体育与健康九年级全一册.docx
文档评论(0)