- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据存储典型体系及其在金融行业应用
大数据存储及其在金融行业的应用
1301210852 孟帅楠
一 背景
大数据的定义、产生、特点及其意义
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。4个“V”——Volume,Variety,Value,Velocity。数据体量巨大。从TB级别,跃升到PB级别;第二,数据繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低,商业价值高。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。1秒定律传统的数据挖掘技术有着本质的不同。社交网络兴起,大量的UGC(User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据谷歌有哪些信誉好的足球投注网站、Facebook的帖子和微博消息使得人们的行为和情绪的细节化测量成为可能。挖掘用户的行为习惯和喜好,凌乱纷繁的数据背后找到更符合用户兴趣和习惯的产品和服务,并对产品和服务进行针对性地调整和优化。大数据或侧重数据分析比如帮企业做内部数据挖掘或侧重优化,帮企业更精准找到用户,降低营销成本,提高企业销售率,增加利润日益显现出对各个行业的推进力随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能,为大量的客户端提供高的整体性能。?一,组件失败成为一种常态而不是异常。因此经常性的监控,错误检测,容错和自动恢复必须集成到系统中。?二,与传统的标准相比,文件是巨大的。在这里,好几个G的文件是很普通的这样设计中的一些假设和参数,比如IO操作和块大小就必须重新定义。三,大部分的文件更新模式是通过在尾部追加数据而不是覆盖现有数据。文件内部的随机写操作几乎是不存在的。一旦写完,文件就是只读的,而且通常是顺序读。大量的数据都具有这样的特点假设在大文件上数据访问具有这样的模式,那么当缓存数据在客户端失效后,append操作就成为性能优化和原子性的关键。四,应用程序和文件系统api的协同设计,增加了整个系统的灵活性。
一个GFS集群由一个master和多个chunkserver组成,可以被多个client访问文件被划分成固定大小的chunk。每个chunk是由chunk创建时由master分配的一个不可变的全局唯一的64bit句柄来标识。Chunkserver将chunk作为linux文件存储在本地,对于chunk数据的读写通过chunk的handle和字节边界来表示。为了可靠性,每个chunk存储在多个chunkserver上。尽管用户可以为不同文件名字空间区域指定不同的备份级别,默认地我们存储三个备份。?Master维护所有的文件系统元数据。包括名字空间,访问控制信息,文件与chunk的映射信息,chunk的当前位置。它也控制系统范围内的一些活动,比如chunk租赁管理,僵死chunk的垃圾回收,chunkserver间的chunk迁移。Master与chunkserver通过心跳信息进行周期性的通信,以发送指令和收集chunkserver的状态。应用程序链接的GFS客户端代码实现了文件系统API以及代表应用程序与master和chunkserver进行通信以读写数据。客户端如果需要操作元数据则需要与master通信,但是所有的纯数据通信直接与chunksever通信客户端或者chunkserver都不会进行文件数据缓存。
1,单Master
?只有一个master大大简化了我们的设计,而且使得master可以利用全局信息对chunk的放置和备份进行更好的判断。然而,使成为一个瓶颈必须最小化它在读写中的参与性。Client永远不会通过master读取文件数据,它只是问master它应该同哪个chunkserver联系。并且client将这些信息在有限的时间段内进行缓存,直接与chunksever交互进行很多后续的操作。
通过固定大小的chunk,客户端将应用程序中标识的文件名和offset转换为chunk的index。然后给master发送一个包含文件名和chunk index的请求,master返回相应的chunk的handle和所有备份的位置。
您可能关注的文档
- 大学英语综合教程翻译课文句子.doc
- 大学英语网测2.doc
- 大学英语综合教程新理念第一册课件Unit8.ppt
- 大学英语综合教程新理念第一册课件Unit9.ppt
- 大学英语翻译技巧(新2-).ppt
- 大学英语考试精读:第五册(UNIT6).doc
- 大学英语考试精读:第六册(UNIT7).doc
- 大学英语翻译教程-第八讲.ppt
- 大学英语英国文学.ppt
- 大学英语翻译教程-第五讲.ppt
- 2024年秋季学期广东东莞市青少年活动中心招聘普通聘员4人笔试模拟试题及答案解析.docx
- 2024福建厦门市集美区灌口中心幼儿园招聘非在编顶岗教职工2人笔试备考试题及答案解析.docx
- 2024辽宁大学招聘高层次和急需紧缺人才招聘15人笔试备考试题及答案解析.docx
- 2024浙江金华科贸职业技术学院招聘学校办公室负责人笔试备考题库及答案解析.docx
- 钢筋加工及安装质量通病防治实施方案.doc
- 2024广西广播电视学校公开招聘工作人员1人笔试备考题库及答案解析.docx
- 2024重庆市居间合同范文.docx
- 湖北省鄂东南联盟2024-2025学年高三年级上册期中联考英语试题(含解析).pdf
- 2025湖南长沙市耀华高级中学招聘21人笔试备考试题及答案解析.docx
- 酒店策划方案(15篇) .pdf
文档评论(0)