多层次压缩决策树在计算机取证中的应用.pdfVIP

多层次压缩决策树在计算机取证中的应用.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多层次压缩决策树在计算机取证中的应用.pdf

实践与应用 中国信息界2011年第1期总第165期 多层次压缩决策树在计算机取证中的应用 刘浩力 (通化市工业和信息化局吉林通化134000) 摘 要:多层次压缩算法克服了c4.5算法在构造树的过程中,需要对数据多次扫描和排序的缺点,并且克服 了CAET算法存在的没有对数据集分类的缺点,并结合它们的优点从树的规模和分类精度上都做了优化,使决 策效率明显提高。利用决策的分类来建立多层次决策树,不但可以加快决策树的生长,而且最重要的是可以 得到结构好的决策树,便于从中挖掘好的规则信息。 关键词:C4.5决策树计算机取证多层次压缩算法 随着计算机网络技术的广泛应用,越来越多的用户使 器学习的过程。通常分为两个阶段:建树和剪枝。第二步是 用计算机,网络犯罪越来越猖狂,所以对计算机犯鼹者的 利卅建好的决策树对新的数据进行分类。 调查、取证,也就尤其重要。但是计算机取证,不同于现 C4.5决策树算法的过程是:首先树的根节点存有训练 实生活中的取证。现实生活中的取证,可以去实地考察, 集的数据,然后从根节点井始按照数据集的属件.计算熵 得到一些具体的物品,来证明犯罪者的种种恶行。但是计 值,按熵值最小的属性进行划分树的子节点,再递归对树 算机取证都是一些“软证据”,例如:数据、日志等,而 的每个子节点进行逐次划分,逐渐形成整个决策树。从根 且证据还存在易毁坏性、易伪造、易篡改等特性。因为计 到叶子节点都有一条路径,这条路径就是一条“规则”。 算机犯罪者,往往都是一些计算机专业的人士,他们可以 决策树可以是二叉的,也可以是多叉的。从根节点剑每个 利用其专业知识,将犯罪证据轻易地毁掉,从而对计算机 叶子节点的一条路径就是一个规则。叶子节点即为实例所 取让带来一定的难度。 属的分类,如图1所示。 本文是参与计算机动态取证项目中,针对计算机犯罪 者,在犯罪的实施过程中提出了一种改良算法,利用并行 技术设计了多层次压缩算法,可以快速的在巨大的网络数 据包中提取有害数据包,及时的分析数据包的有害性,保 证r计算机取证的及时性,准确性的特点。在项目运用中 该算法得到J,良好的效果。 1概述 图1C4.5决策树示例图 1.2熵值介绍 1.1C4.5决策树算法介绍 信息论借用了热学中“熵”的概念来描述信息集中数 C4.5决策树算法是以实例为基础的归纳学习算法,它着 据的有序性。在热学中,熵是和无序性相关联的,无序性 眼于从一组无次序、无规则的事例中推理出决策树表示形式 越高,熵值越大。使集合有序化或者结构化意味着熵值的 的分类规则,通常用来形成分类器和预测模型,可以对未知 降低。 数据进行分类或预测、数据挖掘等。它包括两个步骤:第一 二值分类问题中熵的数学描述为t 步是利用训练样本集来建立并精化出一棵决策树,建立决策 Entropy(S1=。P。l092P—Pologo乓P 树模型。这个过程实际上是从个体数据中获取知识,进行机 其中,s为样本集,P。为S中正态样本的百分比,昂 60 万方数据 中国信息界2011年第1期总第165期 实践与应用 包,这样减轻了每台计算机的负载量,而且方便了实时动 为s中负态样本的百分比。熵衡量s的不纯度(Impurity)。 从图中我们可以得知,当样本集中正态样本数量和负态样 态的取证。具体的实现过程是根据每一个数据包的协议类 本数量相同的时候,也就是说,数据最杂乱无章的时候, 型,由层次管理模块转发到相应的机器上,然后每台机器 熵值最大,为1;当样本集中只有正态样本或只有负态样本

文档评论(0)

我的文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档