- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析的案例、方法与挑战47
大数据分析的案例、方法与挑战中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012数据分析者面临的问题?数据日趋庞大,无论是入库和查询,都出现性能瓶颈?用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高?使用的模型越来越复杂,计算量指数级上升?传统技能无法应对大数据:R、SAS、SQL中山大学海量数据与云计算研究中心黄志洪2012.4DTCC20122场景介绍?信令监测是做什么的?中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012体系架构?数据库服务器:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入库,另外一个节点用于查询?存储:HP虚拟化存储,1000个盘?入库节点?入库方式——常规路径sqlldr?大量使用表分区设计?数据量:每小时写入200G左右数据磁盘物理写大约为450G每小时问题:1入库瓶颈 2查询瓶颈中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012数据库设计?物理上采用ASM?大表全部按时间分区,开始时按小时分区,但由于数据量庞大,后来改成15分钟分区,最后变成每分钟切换1个分区?采用sqlldr方式入库中山大学海量数据与云计算研究中心黄志洪2012.4DTCC20125入库故障描述?由于数据量太大,不得不同时启用多个处理机,产生了多个入库节点?当入库节点分别增加到2节点和4节点以后,sqlldr出现停顿现象中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012AWR报告?中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012AWR报告?中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012AWR报告?中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012关于Buffer Cache中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012Latch中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012寻找Buffer busy wait的根源? Sqlldr和OCI方式同时insert?多个节点同时insert?解决办法1 放弃使用OCI2 对sqlldr进行垂直切分,尽量避免同时多进程插入同一张表中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012再看AWR中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012新的故障现象? Sqlldr依然有停顿,次数较为频密而持续时间较短? HWM冲突问题中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012关于HWM中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012针对HWM冲突的优化措施?对于无法垂直切分的特大表,按照入库节点号作子分区中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012再看AWR? HWM冲突已经被消除? Sqlldr频密周期性短暂停顿的问题依旧中山大学海量数据与云计算研究中心黄志洪2012.4DTCC2012最终问题根源? AWR报告的提示——文件头部竞争?表空间大小与自动扩展是问题根源?修正表空间设置后问题消失中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201218备选方案——牺牲实时性换取直接路径插入?直接路径插入有什么好处??为什么没有采用直接路径插入?中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201219备选方案——交换分区中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201220备选方案——外部表中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201221使用传统关系型数据库遇到的困难? All – in – one,并非专门针对数据分析设计和优化?设计复杂,调优复杂,数据分析师兼任DBA?当数据规模增加时,需要扩展硬件,边际成本指数级上升,存在无法突破的物理瓶颈中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201222解决方案?列式数据库,实时数据库等新的数据库技术?分布式集群:Hadoop,NoSQL及其它分布式数据库技术?混合使用各种专业分析产品中山大学海量数据与云计算研究中心黄志洪2012.4DTCC201223场景:行为指纹识别?当??当??为0 时,AC两个矢量完全相关,即两个号码的交往圈相似度最高当??越接近0,说明两个号码的交往圈越相似2012.4DTCC2012中山大学海量数据与云计算研究中心黄志洪25为 90时,AC两个矢量完全不相关,即两个号码的交往圈相似度最低基于分布式平台运行海量数据移动客户数据量达到TB级云化Oracle数据库中sql语句可以得到结果,但希望进一步提高效率MapReduce方法希望尝试多个相似度计算结果中山大学海量数据
文档评论(0)