基于关键词表达式网络内容监管系统.docVIP

基于关键词表达式网络内容监管系统.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于关键词表达式的网络内容监管系统 A Network Information Monitor System Based On Keyword Expressions 常毅() 张鑫( 谭建龙(Tan jianlong) 白硕(Bai shuo) (中国科学院计算技术研究所 Institute of Computing Technology , CAS 100080) E-mail: changyi@ncic.ac.cn 中图法分类号 TP391 第一章:背景 Internet是一种开放和标准的面向所有用户的技术,其资源通过网络被共享。资源共享与信息泄露,信息非法传播是一对矛盾。随着Internet的飞速发展,计算机网络的资源共享程度进一步加强,随之而来的网络信息内容的监管问题也日益突出。为了保障信息不被无意泄露,保障只有合法信息才能传播,进行网络信息监管是一种重要的控制手段,内容监管也是动态安全技术中最核心的技术之一。 网络内容监管系统拦截用户在网络中传输的数据包,立即对数据包中的内容进行分析,如果信息内容是不希望传输的,则放弃数据传输,否则,转发正常的数据。网络内容监管系统有两个重要的特征。第一:它需要实施的处理网络数据流,在高速网络环境下,对内容的分析要求非常高的性能。传统的内容监管系统和网络入侵检测系统一样在内容分析时一般采用多关键匹配技术。第二:网络内容监管系统的需要尽可能早的发现匹配的规则,一般发现满足任何一个规则,则可以立即终止内容分析。这和信息过滤(Information Filtering)中可以对整个文档全部处理后,再执行判断是不同的。 关键词表达式是大多数有哪些信誉好的足球投注网站引擎使用的查询语言。我们这里定义的关键词表达式(Keyword expression)为, keyword expression := rule [ or rule]* rule := keyword [and keyword ] * 例如keyword expression=“大海” and “海鸥“ or “海螺” and “小孩“,表示如果文本中同时出现“大海” 和 “海鸥“,或者出现“海螺”和“小孩“,则这个文档满足关键词表达式。在网络监管系统中,由于需要同时监管大量的不同主题,关键词表示式可能由上千条规则组成。同时每条规则可能有三到四个关键词。 本文对系统效果的评价主要使用准确率,查全率,F1 测试值,分析速度三个指标。 准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率。其数学公式表示如下: 查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下: 准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,采用F1 测试值,公式如下: 分析速度是实时分析网络数据包的性能指标。在这里使用的是扫描硬盘中文档的速度。 公式如下: 《关键词信息过滤的评价》 《支持向量过滤方式的评价》 《关键词表达式过滤方式的评价》 考虑到支持向量(SVM)等统计算法虽然正确率高,但是计算复杂,需要全部文档完整才能计算,所以不非常适合信息监管的需求。而单纯的关键词匹配虽然招回率很好,但是一般误报率也很高的缺点。我们的系统采用基于大规模表达式的信息过滤方式。 本文下面是这样组织的。第二章介绍信息监管系统的结构框架。第三章介绍自动提出关键词表达式的算法。第四章介绍大规模关键词表达式匹配的一种近似算法。第五章介绍系统的测试数据和实验结果,第六部分是对将来工作的设想和展望。 第二章:系统结构 网络内容监管系统分为三部分: 第一部分是产生监管的规则。这部分根据历史数据包括非法的文档和普通的文档,手工提出或者自动提出监管分析系统使用的规则。传统的规则包括IP地址,EMAIL地址和关键词等。 第二部分是实时网络内容分析。这部分包括从全部用户的统一网络出入口拦截网络通讯。把拦截下来的数据包,立即使用分析部件进行内容分析。如果发现满足监管规则就立即终止用户网络通讯,保存现场,通知操作人员等操作。 第三部分是反馈修改规则和历史数据。这部分是在分析部件保留的现场数据中,由操作人员或者自动程序实现根据分析部件的结果是否正确,修改监管的规则和更新历史数据。 再我们实现的网络内容监管系统中,反馈修改规则和历史数据是手工操作的。操作人员根据系统的报警信息,如果分析结果正确,则把拦截的文档放到非法历史数据中,如果拦截的结果是误判,则把拦截的放到和法历史数据中。 第 第三章 自动提出关键词表达式 第四章 大规模关键词表达式匹配算法 系统实验 总结 本文描述了一个基于关键词表达式的网络信息监管系统,针对信息监管的特殊性,提出了一种自动提出关键词表达式的算法和大规模关键词表

文档评论(0)

天马行空 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档