- 1、本文档共38页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hadoop系统架构
导读:就爱阅读网友为您分享以下“Hadoop系统架构”的资讯,希望对您有所帮助,感谢您对92的支持!
2.舆情监测系统架构设计
2.1 舆情监测系统架构设计概述
舆情监测系统采用高度解耦的三层架构。分为采集层、分析层和应用层。每层功能主要有:
采集层:采集层主要负责搜集各种舆情数据,并进行初步的预处理。
分析层:分析层负责对预处理的采集数据进行更深层次的加工处理,分析舆情的各种属性以及对应的目标受众。
应用层:应用层负责将分析层处理的舆情信息有效的展现给用户,并能快速智能的通知和报警。
舆情系统架构如图2-1所示
图2-1 舆情监测系统架构
2.2 数据采集层
数据采集是舆情工作的首要任务,互联网传播特点和网民行为特征要求系统全面获取网络信息。数据的时效性要求系统能及时采集到必威体育精装版的网络信息。数据采集层获取的信息是舆
情监测的数据源,是初始的基本数据。
采集层使用了类似Google、twitter的分布式抓取技术,基于storm和mapreduce算法以图便利的方式在大规模机器集群上并行网络有哪些信誉好的足球投注网站,支持新闻数据采集、论坛与博客数据采集、境外网站数据采集、微博数据采集。
采集层需要对采集的数据进行一定的预先处理,包括去重判断、正文识别(自动忽略广告灯垃圾部分数据)、格式转换、数据清理。初步取得数据的属性,包括来源、时间、内容摘要、点击量等。论坛数据还要进一步细化提取主题帖、回复贴、发帖人、回复人、发帖时间、回复时间、回复量等信息。
在大规模数据存储方面,将以先进的分布式云计算技术为基础平台,以保证 文件系统和并行计算具有良好的扩展性和可靠性。以此为基础,将针对文本非结 构化数据的特点采用lt;Key, Valuegt;的方式组织文档并进行存储,针对一次写多次 读设计文件索引表结构。同时利用反向索引技术对所有文档进行索引,保证文档能够快速索引。 在大规模网页抓取方面,采用高度灵活的分级调度策略,根据目标网站的重 要程度以及网页规模分配不同优先级资
文档评论(0)