化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用.docVIP

化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化工生产安全论文化工生产论文化工文献检索论文:带确定性决策项的关联规则挖掘及其在生物化工生产中的应用

化工生产安全论文化工生产论文化工文献检索论文 带确定性决策项的关联规则挖掘及其在生物化工生产中的应用 摘 要: 提出了带确定性决策项的关联规则挖掘算法。理论和实验分析表明,该算法与传统的关联规则挖掘算法相比,具有高效率。在实际中应用该挖掘算法,可以得到有意义的知识模式,为生化企业优化生产环境提供理论基础。 关键词: 关联规则;数据挖掘;生化企业;决策 由于生物化工生产过程复杂,产生的数据量大,且数据具有高维、交互、不确定、不完备、不一致及多时态性等特点,如何从杂乱无章的数据中获取有用的知识,如生产环境因子优化、生产过程的发展趋势预测等,是大多数生化企业面临的一个共同难题。 面对海量的数据资源,如何从中发现潜在的有用模式或知识,是数据库技术与应用的一个重要领域———从数据库中发现知识(knowledge dis-covery from databases,KDD)。数据挖掘是KDD中的一个步骤,是指利用某些特定的知识发现算法,从数据库中提取感兴趣的模式[1,2]。在数据挖掘中,关联规则是最早被人们注意并引入商业应用的研究领域之一。关联规则反映了数据中不同数据项间的关联性,通过挖掘关联规则,可以分析和理解数据库中不同数据项间的关联关系[3,4]。针对生化企业中所积累的生产数据,可以利用数据挖掘及关联规则挖掘方法来进行生物化工生产环境优化[5,6]。 经典的关联规则算法,在运算过程中可能会产生大量的候选项目集,使得算法的效率很低。对候选数据项集的生成进行有效的剪枝控制是提高关联规则挖掘效率的主要方法,本文提出的算法即是基于对非决策数据项的剪枝来过滤无效候选项目集的生成。 1 关联规则及确定性决策项 关联规则挖掘数学模型的描述见参考文献[7,8]。例如,采用微生物(黑曲霉)发酵法生产柠檬酸时,可能产生这样的规则:如果“pH值在稍偏酸性条件下(4.2~5.6)”并且“温度控制在稍低条件下(37.0~37.2℃)”并且“黑曲霉接种浓度为中等水平(58 000~68 000个/ml)”时,则具有高的柠檬酸发酵转化率。该规则可以表示成:pH(稍偏酸)∧Temp(稍低)∧Cont(中等) Con-version(高)。 此处,数据项I={pH(稍偏酸), Temp(稍低), Cont(中等), Conversion(高)}。其中,pH、Temp、Cont、Conversion分别表示pH值、温度、黑曲霉接种浓度、柠檬酸发酵转化率等4个数据项,其中前3个是规则的条件(条件项集),后一个是规则的结果,符号∧表示“并且”。 当且仅当现有的样本数据集(即事务集T)中至少有s%的样本同时具有pH=稍偏酸∧Temp=稍低∧Cont=中等∧Conversion=高特征时,称以上规则为频繁规则(支持度=s%)。当且仅当同时满足条件“在现有的样本集满足最小支持度特征(即支持度=s%)”和“在‘pH =稍偏酸∧Temp=稍低∧Cont=中等’的样本集中至少有c%的样本具有‘Conversion=高’”时,称以上规则为强规则(支持度=s%,置信度=c%)。 本文提出的确定性决策项是指在有意义的关联规则的条件项集或结果项集中包含了一个或多个确定的数据项。例如,对于采用微生物发酵法生产柠檬酸这样的生物化工生产,人们感兴趣的仅是那些由若干个条件数据项和特定的结果数据项组成的规则,如“柠檬酸发酵转化率高”或柠檬酸的“总酸量高”是柠檬酸生产中的两个结果数据项(决策项),所有的不包含这两个决策项的规则都是人们所不感兴趣的,因而在设计关联规则算法时,可以对所有包含了非确定性决策项的规则进行剪枝,以提高数据挖掘的效率。 2 算法分析与实现 关联规则的挖掘一般包括两个步骤:①找出支持度大于给定值的频繁数据项集。②用频繁数据项集挖掘出强关联规则。经典的关联规则采掘算法Apriori算法的基本思想为:首先通过扫描数据库产生一个大的候选数据项集,并计算每个候选数据项发生的次数,基于预先给定的最小支持度生成一维数据项集L1,然后基于L1和数据库中的数据产生二维数据项集L2;用同样的方法,直到生成N维数据项集LN,其中已不再可能生成满足最小支持度的N+1维数据项集。这样,依次产生了数据项集{L1,L2,…,LN}。最后,从数据项集中产生强规则。对于包含有决策目标项目集的应用,可以首先求得所有的频繁数据项集,然后把包含了决策目标项目集的频繁数据项集提取出来,即是所需要的结果。本文对Apriori进行扩展,实现有确定性决策目标的数据项条件下关联规则的发现,该算法会过滤所有不包含决策目标项目集的项目集,提高算法效率。假设在项目集I中包含有n个数据项,其中确定性决策项有m个,求频繁项目集的具体步骤为:①若m1,则将m个确定性决策项合并为一个决策项。例如,在一个项目集中包含了“高转化率”、“高

文档评论(0)

almm118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档