互联网舆情监测分析系统项目建议书详解.docVIP

互联网舆情监测分析系统项目建议书详解.doc

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
互联网信息监测分析系统技术方案 河北宜霖永诚电子科技有限公司 2008年7月18日 赵军粮 第一章、需求分析与项目目标 3 1.1 项目背景 3 1.2 需求分析 3 1.2.1 本项目需求分析 3 1.2.2 网络舆情监测分析系统 3 第二章、系统总体规划 5 2.1 应用方案结构框架 5 2.2 设计原则 6 2.3 技术选型 7 2.3.1互联网信息获取技术 7 2.3.2 知识管理技术 7 第三章、系统应用设计 9 3.1 网络舆情监测分析系统 9 3.1.1 互联网信息采集 10 3.1.2 智能信息处理 13 3.1.3 信息服务功能 18 3.1.4 系统管理功能 22 第四章、系统部署结构 24 第五章、系统推荐配置 25 5.1 硬件部分 25 5.2 软件部分 25 附:成功案例 26 第一章、需求分析与项目目标 1.1 项目背景 互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地,加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。 有关如何控制、规范互联网90年代中期许多国家就开始制定相关的法律。1995年6月美国参议院于通过了《传播净化法案》。而新加坡政府则规定,新加坡的三家ISP(网络服务供应商)和拥有网址的政党,宗教团体和个人都必须在新加坡广播局注册并接受其管理。其管理的内容包括可能引起对政府痛恨或轻视的内容,或煽动对政府不满的内容;以及危害公共安全和国防的等等。 系统包括如下基本环节: 信息采集:互联网信息(新闻、论坛等)的实时监测、采集、内容提取及排重; 信息处理:对抓取的内容进行自动分类聚类、主题检测、专题聚焦等; 信息服务:将采集并分析整理后的信息直接为用户或为用户辅助编辑提供信息服务,如自动形成舆情信息简报、追踪已发现的舆论焦点等。 第二章、系统总体规划 2.1 应用方案结构框架 互联网信息分析系统架构图 2.2 设计原则 本系统项目的建设本着应用急需和技术成熟的设计原则。采用业内领先的中文信息智能处理技术和成熟的产品模块,满足本单位业务部门人员工作中急需的应用功能。 全面支持XML; 开放性:系统必须能够兼容不同类型的数据源,其对外信息服务的方式和内容必须便于与其他信息表现前端集成; 组件化:系统应用模块的开发必须遵循组件化开发原则,以接口的方式提供服务; 可配置性:系统必须可以以配置的方式进行接口参数调整,以适应不同应用场合的特殊需要; 安全性:系统应提供对数据源和应用功能的授权访问; 语言无关性,支持多语言不需要重新构架新系统,支持Unicode; 可靠性:系统应能够7*24小时无故障运行; 具备安全权限集成能力,能支持尽可能多的与其他系统的安全权限集成。 高性能支持,保证百万级文献数据的响应速度达到秒级; 支持百万级以上的海量数据,并可通过简单的扩展模式支持无上限的数据; 跨平台性:整个系统必须具备跨平台的能力,保证系统支撑平台和应用层在不同硬件平台和操作系统间顺利移植; 具备跨平台部署与操作能力,尽可能低的维护投入。 可扩展性:应该充分考虑到将来功能的修改或增加,避免需求变更时大规模修改程序; 具备二次开发能力,系统可提供对市面上各种主流开发工具接口API 支持。 具备容灾备份和负载均衡能力,并便于组合实施。 2.3 技术选型 2.3.1互联网信息获取技术 (1) 网络雷达技术 网络雷达技术是在网络爬虫技术基础上,抓取给定的网站中满足要求的信息内容。该方法能及时发现并抓取网站中新的内容,并可通过配置用户信息以便抓取网站中访问权限控制的内容,大大提高网络内容抓取的深度。 (2) 网页内容智能提取技术 网页中通常包含广告、版权信息、脚本描述语言等内容。网页内容智能提取技术能有效地提取网页中的有效信息,区分网页中的标题、正文等信息项,并对内容具有连续性的多个网页内容进行自动合并、网络论坛信息自动提取等。 2.3.2 知识管理技术 知识管理技术是本系统的核心应用技术,也是方正研究院的核心技术产品。 知识管理技术是一组管理、提炼、应用、共享所有的显性知识和隐性知识及信息资源的方法。在保证信息安全的前提下,通过智能分析手段实现快速而方便信息检索、智能自动处理和统计分析,从而达到将最恰当的知识在最恰当的时间传递给最合适的人。系统利用知识管理技术互联网信息资讯分析提供支持。 (1) 自然语言处理技术 据统计,当前数字化的信息中80%的信息以非结构化的形式存在,其中大部分信息以自然语言描述形式的文本。在本系统的,信息的主体部分是以自然语言描述的文本形式。这部分信息是本系统的主

文档评论(0)

boss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档