习题3(第三章 分类技术).docVIP

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
习题3(第三章 分类技术).doc

习题3(第三章 分类技术) 在决策树归纳中,选项有:(a)将决策树转化为规则,然后对结果规则剪枝,或(b)对决策树剪枝,然后将剪枝后的树转化为规则。相对于(b),(a)的优点是什么? 解答: 如果剪掉子树,我们可以用(b)将全部子树移除掉,但是用方法(a)的话,我们可以将子树的任何前提都移除掉。方法(a)约束更少。 在决策树归纳中,为什么树剪枝是有用的?使用分离的元组集评估剪枝有什么缺点? 解答: 决策树的建立可能过度拟合训练数据,这样就会产生过多分支,有些分支就是因为训练数据中的噪声或者离群点造成的。剪枝通过移除最不可能的分支(通过统计学方法),来排除这些过度拟合的数据。这样得到的决策树就会变得更加简单跟可靠,用它来对未知数据分类时也会变得更快、更精确。 使用分离的元组集评估剪枝的缺点是,它可能不能代表那些构建原始决策树的训练元组。如果分离的元组集不能很好地代表,用它们来评估剪枝树的分类精确度将不是一个很好的指示器。而且,用分离的元组集来评估剪枝意味着将使用更少的元组来构建和测试树。 画出包含4个布尔属性A,B,C,D的奇偶函数的决策树。该树有可能被简化吗? A B C D Class T T T T T T T T F F T T F T F T T F F T T F T T F T F T F T T F F T T T F F F F F T T T F F T T F T F T F T T F T F F F F F T T T F F T F F F F F T F F F F F T 解答: 决策树如下,该树不可能被简化。 X是一个具有期望Np、方差Np(1-p)的二项随机变量,证明X/N同样具有二项分布且期望为p方差为p(1-p)/N。 解答: 令r=X/N,因为X是二项分布,r同样具有二项分布。 期望,E[r] = E[X/N] = E[X]/N = (Np)/N = p; 方差,E[] = E[] = E[]/ = Np(1-p)/ = p(1-p)/N 当一个数据对象同时属于多个类时,很难评估分类的准确率。评述在这种情况下,你将使用何种标准比较对相同数据建立的不同分类器。 解答: 一个数据对象可能同时属于多个类,然而,该数据对象可能属于某个类的概率更高。因此,一个评估标准就是选择正确预测出该数据对象通常属于哪个类的分类器。受此启发,一个分类预测如果满足第一或第二最可能的类,那么就被认为是正确的。其他的评估标准包括速度、鲁棒性、可伸缩性和可解释性。 通常,我们选择的分类器一般趋向于含有这样的特征:最小化计算开销,即使给予噪声数据或不完整数据也能准确预测,在大规模数据下仍然有效工作,提供简明易懂的结果。 证明准确率是灵敏性和特效性的函数,即证明式 accuracy = sensitivity+specificity 解答: accuracy = = + = + = sensitivity+specificity 支持向量机是一种具有高准确率的分类方法。然而,在使用大型数据元组集进行训练时,该方法的处理速度很慢。讨论如何克服这一困难,并未大型数据集有效的SVM分类开发一种可伸缩的SVM算法。 解答: 我们可以使用micro-clustering技术(Classifying large data sets using SVM with hierarchical clusters by Yu, Yang, and Han, in Proc. 2003 ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD03), pages 306-315, Aug. 2003 [YYH03])来克服这一困难。 一种基于簇的SVM方法如下描述: 使用CF树构建微簇; 在微簇的中心训练SVM; 打散边界附近的条目; 用其他的条目重复SVM训练; 重复上面的步骤直到收敛。 通过对预测器变量变换,有些非线性回归模型可以转化成线性模型。指出如何将非线性回归方程y=转换成可以用最小二乘方求解的线性回归方程。 解答: 运用替换:,,=,,可以获得线性模型:。 什么是提升(Boosting)?陈述它为何能够提决策树归纳的准确性? 解答: 提升(Boosting)是一种用来提高分类准确度的技术。现有一个包含s个元组的元组集S,训练集(t=1,2,…,T),给中的元组赋予一定的权值。在中创建一个分类器。当创建好以后,更新中元组的权重,这样如果元组造成分类错误的话,在接下来的分类器创建时,容易被发现。这样就

文档评论(0)

wwvfz702 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档