- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机器学习小例子
它是机器学习的重要基础,从描述算法操作的符号到代码中算法
的实现,都属于该学科的研究范围。
虽然线性代数是机器学习领域不可或缺的一部分,但二者的紧密
关系往往无法解释,或只能用抽象概念(如向量空间或特定矩阵运算)
解释。
阅读这篇文章后,你将会了解到:
如何在处理数据时使用线性代数结构,如表格数据集和图像。
数据准备过程中用到的线性代数概念,例如one-hot编码和降维。
深度学习、自然语言处理和推荐系统等子领域中线性代数符号和
方法的深入使用。
让我们开始吧。
这10个机器学习案例分别是:
1.DatasetandDataFiles数据集和数据文件
2.ImagesandPhotographs图像和照片3.One-HotEncodingone-hot编
码4.LinearRegression线性回归5.Regularization正则化
6.PrincipalComponentAnalysis主成分分析
7.Singular-ValueDecomposition奇异值分解
8.LatentSemanticAnalysis潜在语义分析9.RecommenderSystems推
荐系统10.DeepLearning深度学习
1.数据集和数据文件
在机器学习中,你可以在数据集上拟合一个模型。
这是表格式的一组数字,其中每行代表一组观察值,每列代表观
测的一个特征。
例如,下面这组数据是鸢尾花数据集的一部分
数据集:
5.1,3.5,1.4,0.2,Iris-setosa4.9,3.0,1.4,0.2,
Iris-setosa4.7,3.2,1.3,0.2,Iris-setosa4.6,3.1,1.5,0.2,
Iris-setosa5.0,3.6,1.4,0.2,Iris-setosa
这些数据实际上是一个矩阵:线性代数中的一个关键数据结构。
接下来,将数据分解为输入数据和输出数据,来拟合一个监督机
器学习模型(如测量值和花卉品种),得到矩阵(X)和矢量(y)。
矢量是线性代数中的另一个关键数据结构。
每行长度相同,即每行的数据个数相同,因此我们可以说数据是
矢量化的。这些行数据可以一次性或成批地提供给模型,并且可以预
先配置模型,以得到固定宽度的行数据。
2.图像和照片
也许你更习惯于在计算机视觉应用中处理图像或照片。
你使用的每个图像本身都是一个固定宽度和高度的表格结构,每
个单元格有用于表示黑白图像的1个像素值或表示彩色图像的3个像
素值。
照片也是线性代数矩阵的一种。
与图像相关的操作,如裁剪、缩放、剪切等,都是使用线性代数
的符号和运算来描述的。
3.one-hot编码
有时机器学习中要用到分类数据。
可能是用于解决分类问题的类别标签,也可能是分类输入变量。
对分类变量进行编码以使它们更易于使用并通过某些技术进行
学习是很常见的。one-hot编码是一种常见的分类变量编码。
one-hot编码可以理解为:创建一个表格,用列表示每个类别,
用行表示数据集中每个例子。在列中为给定行的分类值添加一个检查
或「1」值,并将「0」值添加到所有其他列。
例如,共计3行的颜色变量:
redgreenblue。
这些变量可能被编码为:
red,green,blue1,0,00,1,00,0,1。
每一行都被编码为一个二进制矢量,一个被赋予「0」或「1」值
的矢量。这是一个稀疏表征的例子,线性代数的一个完整子域。
4.线性回归
线性回归是一种用于描述变量之间关系的统计学传统方法。
该方法通常在机器学习中用于预测较简单的回归问题的数值。
描述和解决线性回归问题有很多种方法,即找到一组系数,用这
些系数与每个输入变量相乘并
文档评论(0)