计算机视觉 课件 第5、6章 图像分类、 神经网络基础.pptx

计算机视觉 课件 第5、6章 图像分类、 神经网络基础.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章图像分类5 目 录5.1K-最近邻分类5.25.3朴素贝叶斯分类SVM分类5.4分类器预测结果评价计算机视觉 计算机视觉 图像分类:计算机视觉的核心任务 (假设给定的离散标签集) {狗,猫,卡车,飞机,…}cat 计算机视觉 问题:语义间隔猫的图像宽度为248像素,高度为400像素,并具有红绿蓝三个颜色通道(通常称为RGB)。因此,图像由248×400×3个数字组成或总共297600个数字,每个数字是一个从0(黑色)到255(白色)的整数。图像分类的任务是将这接近30万个数字变成一个单一的标签,如“猫(cat)”。 计算机视觉 图像识别的难点挑战:视角变化挑战:光照的变化 计算机视觉 挑战:变形挑战:遮挡 计算机视觉 挑战:背景混乱挑战:组内变异 计算机视觉 传统的图像分类通过特征描述来完成,比如识别一只猫,就是提取猫的轮廓,尖尖的就是两个耳朵,长的是尾巴,四肢和毛发等都有对应的特征。但是,如果出现了遮挡,变形,光照等的变化,那么这些识别猫的规则可能就不起作用了。 计算机视觉 为了克服传统方法在图像分类问题上的弊端,采用数据驱动的方法可以更好地让计算机理解图像的内容。用大量猫的图像训练出一个可以自动分类的函数,给这个训练好的函数输入未知的图像,然后输出一个标签(也就是图像的分类是什么,是猫还是狗)。使用两个函数,一个训练函数,一个预测函数。训练函数接收图像和图像所属的分类(也就是标签),经过训练后返回一个模型;预测函数接收训练好的模型和待分类的图像,经过运算返回预测的分类标签。图像分类流程如下:输入:输入是包含N个图像的集合,每个图像的标签是K种分类标签中的一种,这个集合称为训练集。学习:这一步的任务是使用训练集来学习每个类的特征是什么,该步骤也称为训练分类器或者学习一个模型。评价:让分类器来预测它未曾见过的图像的分类标签,把分类器预测的标签和图像真实的分类标签对比,并以此来评价分类器的质量。 计算机视觉 5.1 K-NN分类法5.1.1最近邻分类法最邻近分类思想:将测试图像和训练集中每一幅图像做比较,然后将它认为最相似的那个训练集图像的标签赋给测试图像。距离越远,代表图像之间的相似度越低;距离越近,代表两幅图像越相似。我们如何比较图像?距离度量是多少? 计算机视觉 1. L1距离也是曼哈顿(Manhattan)距离2. L2距离也叫欧式(Euclidean)距离计算出L1距离为456,L2距离为162.11。 计算机视觉 5.1.2 K最近邻分类法K-NN分类思想:计算图像A与训练集中所有图像之间的距离,取出与该图像距离最近的k幅图像,然后统计这k幅图像中所属比例最大的分类,则图像A属于该分类。通俗地讲,如果与图像A距离最近的几幅图像都是狗,那么图像A的类别标签也是狗。K-NN图像分类算法流程如下:(1)计算当前测试图像与训练集中所有图像之间的距离;(2) 按照距离递增次序排序; (3) 选取与当前测试图像距离最近的k幅图像; (4) 统计前k幅图的分类,即计算这k幅图所在类别的出现频率; (5) 将前k幅图像中出现频率最高的类别作为当前测试图像的预测分类。 计算机视觉 示例数据集:CIFAR-1010个标签50000张训练图像,每个图像都很小:32x3210000张测试图像。 计算机视觉 将每个测试图像(第一列),与训练集中每一幅图像做比较,根据像素距离计算出最近的10张图片(行是最近邻的示例)。统计这10幅图所在类别的出现频率,将出现频率最高的类别作为当前测试图像的预测分类.K-NN中如何k值? 计算机视觉 K值是试出来的。首先将数据分为训练数据与测试数据:当整个训练数据被我们用来训练并且k = 1时,整个训练数据的准确率都是100%的,这样没办法看出我们算法的表现能力,所以我们要将训练数据分为训练数据与验证数据,并且只训练训练数据,在验证数据上进行验证,以了解我们训练数据的算法泛化能力(准确率): 计算机视觉 验证数据用于调整超参数再进一步,我们可以将训练数据分为x份,使每一份数据都做一次验证数据,这样我们就得到了x个准确率,取其中的平均值,就得到了当k取任意值时的准确率如何,这样再选择准确率最高时的k值,就得到了一个表现最为良好的算法:注意:在超参数调优的过程中决不能使用测试集来进行调优,因为这样会使模型对测试集过拟合,降低模型的泛化能力。所以测试数据集只能使用一次,即在训练完成后评价最终模型时使用。 计算机视觉 图是使用5-fold cross-validation,取不同的k值时,得到的accuracy曲线(因为是5-fold cross-validation,所以在每个k值上有5个取值,通常取其

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档