根据葡萄酒理化指标对葡萄酒质量统计分析.docVIP

根据葡萄酒理化指标对葡萄酒质量统计分析.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
根据葡萄酒理化指标对葡萄酒质量统计分析

根据葡萄酒理化指标对葡萄酒质量统计分析   【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。   【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树   一、问题提出   葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,使品评结果不够科学。对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。   本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。   二、主要研究方法   针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。   本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。系数得到则主要通过最大似然估计。决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。本文主要通过Rattle中包含的决策树的CART算法对葡萄酒质量进行分类研究。此外,本文还引入了Adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类结果。   三、指标选取及数据探索   本文主要选择葡萄酒的理化指标作为分类依据进行研究。参考文献并根据数据的可取得性,最终选择非挥发性酸度、挥发性酸度、柠檬酸、剩余糖??、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐、PH值、酒精11个理化指标作为输入变量。输出变量为基于感觉得到的葡萄酒质量(葡萄酒专家提出的至少3个评价的均值)。葡萄酒数据来源于UCI数据库。对于输出变量,每位专家的葡萄酒质量分级介于0~10,其中0为质量极差,10为质量极好。极好的和极差的葡萄酒样本都是少数,评价为中间的葡萄酒样本最多。红葡萄酒样本总数有1599个,质量分为6类,分别评价为3至8。由于本文目的主要在于对质量评价相近的葡萄酒进行量化分类,故通过简单的统计红葡萄酒各评价的个数后,将葡萄酒质量进行0~1化。若红葡萄酒评价类别为3~5,则为0(质量差);若红葡萄酒评价类别为6~9,则为1(质量好)。数据中没有缺失值。选择前70%的样本进行建模,15%的样本进行验证,15%的样本进行测试。   四、主要结果及比较分析   将上述处理好的数据在R软件的Rattle包中进行分析,得到不同分类方法对葡萄酒质量分类结果:   1、逻辑回归分析。通过logistic回归结果得,在99.9%的置信度下,挥发性酸度、硫酸盐对红葡萄酒的分类存在显著影响。对红葡萄酒而言,总二氧化硫、理化指标对红葡萄酒质量有显著影响。   2、决策树分析—CART。通过对红葡萄酒建立决策回归树,最终得到红葡萄酒决策回归树的树结构比较简单、判别规则较为清晰,但底层分类较为繁杂。当酒精11且硫酸盐0.58时,就可以判定该红葡萄酒为质量好。   3、模型间的比较。通过逻辑回归和决策树两种模型对葡萄酒质量进行分类,不同模型对葡萄酒分类的重要指标结论不同,为比较两种模型的优劣,画出了ROC曲线。在ROC曲线中,曲线下方面积越大,模型的正判率越高。具体数据如下表。逻辑回归模型对红葡萄酒的正判率为72.8%意味预测样本中真正质量差的红葡萄酒样本有32%被准确定为‘质量差’,而有12%的样本被错误定位‘质量好’;同理,质量好的红葡萄酒样本中,有41%被准确定为‘质量好’,而有15%(8%)的样本被错误定位‘质量差’。   通过ROC曲线图得到,决策树的正判率总是要高一些。因此,决策树分类结果所得到的重要指标更具有参考价值。考虑到决策树算法有着分类规则复杂、收敛到非全局的局部最优解、过度拟等缺点,故用Adaboost方法对决策树进行优化,以得到更为准确的分类,得到更好的分类重要指标。   4、决策树模型优化—Adaboost。在建立Adaboost模型时,建立的决策树棵树对模型效果有着十分显著的影响。在建立红葡萄酒Adaboost模型时,本文通过选择50-500的建树棵树,得到不同的正判率,最终选择建立350棵树进行分析,此时的正判率最

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档