数据分析师-数据挖掘与机器学习-机器学习基础_监督学习基础:线性回归与逻辑回归.docx

数据分析师-数据挖掘与机器学习-机器学习基础_监督学习基础:线性回归与逻辑回归.docx

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE1

PAGE1

机器学习基础概览

1监督学习与非监督学习的区别

监督学习和非监督学习是机器学习中两种主要的学习方式,它们的主要区别在于数据的标签和学习的目标。

1.1监督学习

监督学习是基于有标签数据的学习方法,即数据集中的每个样本都有一个对应的正确答案或标签。目标是通过学习这些有标签的数据,建立一个模型,使得模型能够对新的、未见过的数据进行预测。常见的监督学习任务包括分类和回归。

1.1.1示例:线性回归

线性回归是一种简单的监督学习算法,用于预测连续值输出。例如,预测房价基于房屋的大小。

#导入必要的库

importnumpyasnp

fromsklearn.model_selectionimporttrain_test_split

fromsklearn.linear_modelimportLinearRegression

fromsklearn.metricsimportmean_squared_error

#创建数据集

#假设房屋大小和价格数据

sizes=np.array([100,150,200,250,300,350,400,450,500,550])

prices=np.array([100000,150000,200000,250000,300000,350000,400000,450000,500000,550000])

#将数据转换为二维数组,以便于模型处理

sizes=sizes.reshape(-1,1)

#划分数据集为训练集和测试集

X_train,X_test,y_train,y_test=train_test_split(sizes,prices,test_size=0.2,random_state=42)

#创建线性回归模型

model=LinearRegression()

#训练模型

model.fit(X_train,y_train)

#预测

predictions=model.predict(X_test)

#计算均方误差

mse=mean_squared_error(y_test,predictions)

print(MeanSquaredError:,mse)

1.2非监督学习

非监督学习是基于无标签数据的学习方法,即数据集中的样本没有对应的正确答案或标签。目标是通过学习数据的内在结构和模式,发现数据的潜在规律。常见的非监督学习任务包括聚类和降维。

1.2.1示例:K-means聚类

K-means是一种常用的非监督学习算法,用于将数据集中的样本分为K个簇。

#导入必要的库

importnumpyasnp

fromsklearn.clusterimportKMeans

importmatplotlib.pyplotasplt

#创建数据集

#假设我们有两组数据点

data=np.array([[1,2],[1.5,1.8],[5,8],[8,8],[1,0.6],[9,11]])

#创建K-means模型

kmeans=KMeans(n_clusters=2)

#训练模型

kmeans.fit(data)

#获取聚类中心

centroids=kmeans.cluster_centers_

#获取每个数据点的聚类标签

labels=kmeans.labels_

#可视化结果

plt.scatter(data[:,0],data[:,1],c=labels,cmap=viridis)

plt.scatter(centroids[:,0],centroids[:,1],c=red,marker=x)

plt.show()

2机器学习中的常见问题与应用领域

机器学习在解决各种问题时,会遇到一些常见的挑战,包括过拟合、欠拟合、数据不平衡等。同时,机器学习在多个领域都有广泛的应用,如自然语言处理、计算机视觉、推荐系统、医疗诊断等。

2.1过拟合与欠拟合

过拟合是指模型在训练数据上表现很好,但在未见过的数据上表现较差。欠拟合是指模型在训练数据和未见过的数据上都表现较差。解决过拟合和欠拟合的方法包括正则化、增加数据量、调整模型复杂度等。

2.2数据不平衡

数据不平衡是指数据集中某些类别的样本数量远多于其他类别。这可能导致模型在预测少数类别时表现较差。解决数据不平衡的方法包括过采样、欠采样、使用不同的评估指标等。

2.3应用领域

机器学习在多个领域都有广泛的应用,例如:

自然语言处理:用于情感分析、机器翻译、文本分

您可能关注的文档

文档评论(0)

kkzhujl + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档