阅面科技赵京雷计算机视觉之路.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
阅面科技赵京雷计算机视觉之路

阅面科技赵京雷:计算机视觉之路 2016年是人工智能发展的第 60周年,人工智能已经走了很长一段路,随着 AlphaGo的 辉煌战绩的出现,又再次引爆了人工智能在各个领域的发展。回顾计算机视觉发展之路,才 能让我们踩着历史的积淀,顺应发展的大潮,去探索未来。 一、计算机视觉的认知依据 人类对世界的认知非常简单,我们可以一眼看出一个水果是苹果还是橘子。但是对于机器来 说,我们怎么写个程序让机器来分辨苹果和橘子呢。 (人类的识别) 如果让大家思考,我们会给出各种答案,比如是不是可以让机器通过水果的颜色来区分,或 者通过形状和纹理来区分等等。 (基于颜色、形状、纹理的识别) 在深度学习出现之前,这种基于寻找合适的特征去让机器辨识物品的状态,基本上代表了计 算机视觉的全部。 以颜色特征为例,它是一种在现在依然被广泛应用的特征,我们称之为颜色直方图特征。它 是一种最简单、最直观,对实际图片的颜色进行数字化表达的方式。机器识别图片只能用二 维的向量来表示。我们都知道颜色的值可以用 RGB三原色来表示,颜色直方图的横轴代表 颜色的 RGB数值,表示一个物品所有颜色的可能性,纵轴则代表了整个图像具有某个颜色 值的像素数量,其实,通过这样一种非常直观的方法,机器就可以对看到的图片进行颜色表 征。在过去的二三十年里,关于颜色特征的表示有很多探索和研究,比如:各种各样颜色直 方图的变种,使得计算机能够通过二维数字串的形式,更好地表示图像的颜色特征,使得其 能够区分看到的不同物品。 左:(颜色直方图 striker 1995)右:(颜色距 striker 1995) 以纹理特征为例,桔子会有坑坑洼洼的纹理,而苹果的纹理则非常光滑。这种局部的纹理刻 画,如何通过数字串的形式抽象表示出来,和颜色特征一样,这是过去很多年计算机视觉一 直在探求和优化的问题。下图是计算机视觉中在各个领域使用较多的纹理特征表示方法示 例。 (纹理直方图) (SDM) 形状特征也是一样,以下两图可以直观的示例计算机视觉通过形状特征来进行识别。 (Shape Context: Belongie,2001) (Hog:Dalal,2005) 通过这些例子可以看出,计算机视觉在过去很多年,处理问题的方法很简单,就是找到一种 合适的特征抽象方法,对一个待识别或者待分类问题进行特征表达,然后进行计算的过程。 如果要做人脸识别,需要寻找到底是颜色特征还是纹理特征或者形状特征更适于表达,怎么 样能把目标问题区分开来。对人脸来说,颜色的作用不会很大,因为人脸的颜色长得都差不 多。但是人脸的褶皱、纹理,两眼之间的距离等可能代表了不同人之间的区别,可能纹理和 结构特征相比更加有效。而如果我们要检测识别人体,可能纹理特征就不是那么重要,因为 人会穿各种各样的衣服,但形状特征就会很重要。所以,过去的计算机视觉是针对不同的问 题,选择不同的特征表征方法。 二、计算机视觉的发展过程 从 2006年开始,在将近 10年的时间里,计算机视觉的方法发生了一个比较本质的变化, 就是深度学习的出现,在某种程度上改变了我们前面对计算机视觉的定义。我们先了解一下 计算机视觉发展的历程,看看是基于什么契机和积累,让计算机视觉发生了这样的变化。 计算机视觉的发展史可以追溯到 1966年,著名的人工智能学家马文·明斯基给他的本科学 生布置了一道非常有趣的暑假作业,就是让学生在电脑前面连一个摄像头,然后写一个程序, 让计算机告诉我们摄像头看到了什么。大师就是大师,这道题实在是太有挑战了,在某种意 义上它代表了全部计算机视觉要做的事情,因此我们认为这是一个起点。 上世纪 70年代,研究者开始去试图解决让计算机告知他到底看到了什么东西这个问题。研 究者认为要让计算机认知到底看到了什么,可能首先要了解人是怎样去理解这个世界的。因 为那时有一种普遍的认知,认为人之所以理解这个世界,是因为人是有两只眼睛,他看到的 世界是立体的,他能够从这个立体的形状里面理解这个世界。在这种认知情况下,研究者希 望先把三维结构从图像里面恢复出来,在此基础上再去做理解和判断。 (David Marr,1970s) 上世纪 80年代,是人工智能发展的一个非常重要的阶段。人工智能界的逻辑学和知识库推 理大行其道,研究者开始做很多专家推理系统,计算机视觉的方法论也开始在这个阶段产生 一些改变。人们发现要让计算机理解图像,不一定先要恢复物体的三维结构。例如:让计算 机识别一个苹果,假设计算机事先知道苹果的形状或其他特征,并且建立了这样一个先验知 识库,那么计算机就可以将这样的先验知识和看到物体表征进行匹配。如果能够匹配,计算 机就算识别或者理解了看到的物体。所以,80年代出现了很多方

文档评论(0)

dashewan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档