《数据标注工程——概念、方法、工具与案例》教学课件451.pptxVIP

《数据标注工程——概念、方法、工具与案例》教学课件451.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据教材和网络资源整理制作,可作为授课教师的参考资料和从业人员的自学资料。

人工智能技术应用核心课程系列教材;;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;1.1 人工智能发展历程;;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;1.2 人工智能的典型技术;;1.3 人工智能是新一代信息技术的核心;1.3 人工智能是新一代信息技术的核心;1.3 人工智能是新一代信息技术的核心;1.3 人工智能是新一代信息技术的核心;1.3 人工智能是新一代信息技术的核心;;1.4 本章小结;;;人工智能技术应用核心课程系列教材;;2.1数据标注的概念及其对人工智能发展的意义 ;根据国际数据公司(IDC)的监测数据显示,2018年全球大数据储量达到33.0ZB,同比增长52.8%。到2020年,全球将总共拥有超过44ZB的数据量;其中文本、照片、音频、视频、医疗影像等非结构化内容超过85%。大数据蕴含的前所未有的社会价值和商业价值,是一个发展潜力十分巨大的机遇。因此,大数据也被被誉为“新的石油”。;20世纪80年代出现的深度学习神经网络算法,因为没有足够的数据支持而步履维艰 自2012年之后,数据技术推动数据产业的发展。大数据、人工智能、物联网及云计算等技术的快速发展,智慧城市、智慧园区、智能家电、穿戴设备、智能机器人等智能应用不断涌现,对经济社会发展产生了巨大而又深远的影响,同时也采集、获取、积累了大量的原始数据资源。智能应用技术中算法模型的学习和训练依赖于大量数据样本训练集,由此也产生了大量场景化的人工智能数据需求。;数据标注就是将大量的、原始的、杂乱的数据转化为规范化的、计算机能够读懂的、标识出关键特征的数据集,从而支持人工智能的相关应用。 数据???注质量影响人工智能应用效率。高质量的、准确标注的数据将最大限度地提升人工智能判别的准确率;而低质量的、没有准确标注的数据会影响、甚至阻滞人工智能的进化能力。 人工智能的发展促使数据标注不断进步。随着人工智能的不断发展,对数据标注的需求度越来越高,数据标注任务要求不断细化,以满足不同行业对数据的不同要求。 因此,高质量的数据标注对于促进人工智能行业健康发展具有重要意义。;;数据集(Data Set)又称为资料集、数据集合、资料集合或数据产品,是经过规范化整理、工程化标注的一组具有统一格式的数据集合。 人工智能数据集主要分为语音数据集、图像数据集、文本数据集和视频数据集等四大类别。 部分国际人工智能公共数据集如下: ;在人与人、人与计算机的信息交互中,需要一种更加方便、自然的交互方式。语言是人类最重要、最有效、最常用和最方便的信息交流形式。 人工智能语音数据集,按照不同的维度,通常可以分为三种: (1)按照语种分类:世界上有五千多种语言,目前的语音数据集主要包含了使用人数较多的语种,如汉语、英语、西班牙语、法语等。 (2)按照方言分类:汉语有七大方言区,外语也有方言之分 (3)按照语音属性分类:朗读语音、引导语音、自然对话、情感语音等 上述各种维度的语音数据集,在形成数据产品的时候往往会多维度结合,各种维度交错,构成大量的语音数据产品。 ;图像(图片)经数字化后形成可以存储、编辑的图像数据(图片数据)。对于计算机来说一张数字化图片的内容信息就相当于一连串代表每个像素位置和颜色的数字序列,也就是图像数据。 人工智能图像数据集,按照不同的维度,通常可以分为七种: (1)按照应用场景分类:例如人体识别、车辆识别、车牌识别、动物识别等 (2)按照局部或整体特征分类:以车辆为例,车牌为局部,车型为整体 (3)按照待识别对象的数量分类:例如单人、人群 (4)按照气象条件分类:晴天、阴天、雨天、雪天、雾霾、白天、黑夜等 (5)按照拍摄角度分类:正面、侧面、上面、下面、背面 (6)按照光线情况分类:顺光、侧光、逆光、侧逆光 (7)按照拍摄对象分类:不同人种、不同性别、不同表情等;文本数据是指不能参与算术运算的字符集合,也称为字符型数据。文本数据集主要应用于自然语言理解、机器翻译、语音识别、智能交通等领域。 文本数据可收集的种类包括:命令词、常见人名、地名库、歌曲名称、影视名称、餐饮词汇、短信库、电子邮件等文本分类

您可能关注的文档

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

从事职业教育近20年,高级职称。

领域认证 该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档