特征选择和分类算法介绍安爽Anshuang_001@163com201008.PPT

特征选择和分类算法介绍安爽Anshuang_001@163com201008.PPT

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
特征选择和分类算法介绍安爽Anshuang_001@163com201008

特征选择和分类算法介绍 安 爽 Anshuang_001@163.com 2012-01-08 主要内容 数据(matlab) 特征选择(属性约简) 分类模型的建模思想 Weka软件介绍 应用实例分析 数据 样本 属性(特征) 条件属性和决策属 属性重要性度量:信息熵、属性依赖度函数 数据导入 原始数据格式:’.txt’ 或者 ‘.xls’ 转换后的格式:’.mat’ 步骤:打开matlab—file—import data… ——finish 特征选择与属性约简 特征选择: 评价函数+有哪些信誉好的足球投注网站策略+停止准则 属性约简: 约简集的评估值与原始属性集的评估值相等 评价函数+有哪些信誉好的足球投注网站策略 评价函数 相关性计算:线性相关性和非线性相关性 线 性: 非线性:互信息(模糊依赖度、间隔理论等) 用来评价条件属性与决策属性之间的相关性 值越大相关性越大 特征选择的步骤 输入:数据集X={x1,x2,…,xn},F={f1,f2,…,fm}, 决策属性为D 步骤如下: 1 设特征子集S为空集; 2 评价每个特征,评价值为{v1,…,vm}; 3 选择最大的评价值对应的特征作为特征子集的一个元素, 设为S=S?{f},F=F-{f}; 4 将F中的特征分别与S集取并集,并评价每个特征子集; 5 选择最大的评价值对应的特征,S=S?{f},F=F-{f}; 6 重复3,4直到算法满足停止准则; 7 输出特征子集S。 属性约简的步骤 输入:数据集X={x1,x2,…,xn},F={f1,f2,…,fm}, 决策属性为D 步骤如下: 1 设属性子集S为空集;评价原始属性集,令评价值为V; 2 评价每个属性,评价值为{v1,…,vm}; 3 选择最大的评价值对应的属性作为属性子集的一个元素, 设为S=S?{f},F=F-{f}; 4 将F中的属性分别与S集取并集,并评价每个属性子集; 5 选择最大的评价值对应的属性,S=S?{f},F=F-{f}; 6 重复3,4直到属性子集的评价值等于V; 7 输出特征子集S。 分类模型的建模思想 分类建模的步骤 线性分类器 非线性分类器 分类建模的步骤 训练分类器 将数据集分成训练集和测试集 用训练数据集训练分类模型 用测试集测试分类器的性能 线性分类器 线性判别函数和决策超平面 支持向量机 线性判别函数和决策超平面 支持向量机 硬间隔支持向量机 软间隔支持向量机 软间隔支持向量机 非线性分类器 近邻规则分类 决策树分类 近邻规则分类器 最近邻规则 K-近邻规则 决策树分类器 条件属性 决策属性 病人 头痛 肌肉痛 体温 流感 x1 是 是 正常 否 x2 是 是 高 是 x3 是 是 很高 是 x4 否 是 正常 否 x5 否 否 高 是 x6 否 是 很高 是 x7 否 否 很高 是 x8 否 是 很高 是 条件属性 决策属性 病人 a1 a2 a3 d x1 1 1 0 0 x2 1 1 1 1 x3 1 1 2 1 x4 0 1 0 0 x5 0 0 1 0 x6 0 1 2 1 x7 0 0 2 1 x8 0 1 2 1 决策树 流感判断规则 (体温,正常)?(流感,否) (头疼,是)且(体温,高)?(流感,是) (头疼,否)且(体温,高)?(流感,否) (体温,很高)?(流感,是) Weka简介 数据导入 算法使用 weka数据格式 在matlab中将每一列加上一个标号 使用matlab将‘.mat’数据转换成‘.csv’格式 csvwrite(‘data2.csv’,data1) data1是’.mat’格式的数据文件 使用weka将‘.csv’格式的数据打开——另存为‘.arff’格式 使用ultraedit将‘.arff’格式文件打开,修改决策属性的数据类型。 修改后的数据即可用于weka软件。 算法使用 导入数据; Open file ——打开’.arff’数据文件; 选择类别,分类、特征选择、聚类等; 选择算法以及算法的参数; 选择计算方式,十折交叉、全部训练等; 点击start开始计算; 查看计算结果。 应用实例分析1 癌症预测 基因数据的特点:小样本+高维数 癌症预测的步骤: 1 特征选择 2 分类建模 应用实例分析2 太阳耀斑预测 太阳耀斑数据的特点:序列数据+大样本+ 类

您可能关注的文档

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档