⼤数据产业发展现状与趋势.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?数据产业发展现状与趋势

一、?数据产业发展现状

自进入“十四五”时期以来,大数据产业已迈入一个新的发展阶段,产业内部逐渐细化,形成数据存储与计算、数据管理、数据应用、数据安全四大核心领域。数据源通过数据存储与计算实现压缩存储和初步加工,通过数据管理提升质量,通过数据应用直接释放价值,并由数据安全技术进行全过程的安全保障。四大核心领域当前呈现不同发展现状,在数据要素大战略的新形势下,发展方向均进一步明确。大数据技术在数据存储与计算、数据管理、数据应用、数据安全四大产业领域有不同的发展,存算分离架构、融合一体衍进、智能增强分析、数据研发运营一体、内生安全技术5项成为关注和发展焦点,国内外市场均涌现不少相关产品和方案。

1、数据存储与计算领域

存算分离架构:存算一体架构下,大数据数据处理产品的存储节点、计算节点功能耦合或者部署耦合,存在部署规模上限低、计算弹性扩缩困难、存算故障隔离弱等问题。存算分离的弹性计算、高规模上限、存算故障隔离等架构优势,能够提供更好的算力保障和运维灵活性,有助于应对大规模数据分析的挑战,从而提供更好的数据驱动决策的支持。

近年来,业界存算分离方面的主流产品和样板技术也日益涌现。主流产品方面有ApacheDoris、阿里巴巴Hologres、腾讯TCHouse、偶数科技HashData等。金融行业中,建行联合HashData、金山云,推出了云原生数据库产品“龙趺”,实现了基于虚拟机部署的存算分离架构。数据中间件技术方面,开源的缓存层框架Alluxio向上对接Spark、Presto、Hive、TensorFlow等计算应用,向下对接阿里云OSS对象存储、AWSS3存储、HDFS等不同存储,可提升I/o效率200%以上;ShardingSphere将多类异构数据库MySQL、PostgreSQL、Oracle、SQLServer、GaussDB等包装为统一的数据访问接口,从而方便多种编程语言直接访问多类异构数据库。

融合一体衍进:在数字化转型深入的推动下,数据类型、数据时效和应用场景的多样性要求企业搭建不同的平台和引擎来满足使用。平台方面最典型的如数据湖和数据仓库的部署使用。传统的湖+仓库混合架构存在多种问题,如数据冗余、数据一致性差、资源配置难、系统复杂等弊端,极大增加了运维的压力和成本。引擎方面聚焦在“批、流、交互计算”三种计算模型对应的诸多计算引擎,批、流、交互计算的计算形态不同,优化方向也不同,导致各个计算引擎不能形成统一,增加了数据处理的复杂度。融合一体架构成为横跨数据存储与计算领域、数据管理领域,解决上述问题的一类主流技术方向,包括批流一体技术框架、湖仓一体技术框架、混合事务分析处理技术(HTAP)。建立融合一体能力后,统一的接口层、计算层、存储层、资源调度层实现了对于海量数据的统一管理和集群服务的统一运维,大幅降低了运维综合成本。在2023年,为了统一湖仓一体框架,部分企业提出“湖仓一体”设计标准,例如Databricks的Open、Unified、Scalable三标准(开放、统一、可伸缩),偶数科技ANCHOR标准(多数据类型、云原生、数据一致性、超高并发、一份数据、实时T+0)等,显示出业界对湖仓一体标准化发展的关注。

近年来,海外厂商Databricks推出DataLakeHouse、亚马逊推出智能湖仓架构。国内阿里云推出MaxCompute湖仓一体方案,提供高性能数据仓库为主体、无需数据搬迁即可无缝处理和分析数据湖数据的湖仓融合的数据管理平台;华为云FusionInsight湖仓一体架构,在MRS数据湖内承载全量数据,对数据进行批量、实时加工,一个数据平台按需支持批处理、流计算、交互查询和机器学习场景;其它如巨杉数据库SequoiaDB、网易数帆船EasyLake、柏睿数据RapidsLakehouse等产品。

2、数据管理领域

数据研发运营一体化:随着数据应用场景日益丰富带来数据分析需求快速变化,数据工程师、数据管理员、报表开发人员、运维工程师在内的各类数据管理角色增多,各类数据交付任务难度大大增加。数据研发运营一体化技术(DataOps),是数据开发的新范式。它将敏捷和精益等现代软件开发理念引入数据开发过程中,旨在提高数据产品的交付效率和质量。通过将数据质量达标率、数据标准落标率、数据架构符合度、数据安全满足度等指标作为数据设计、开发和测试的要求,优化数据生产者和数据消费者协作效率,并通过标准化大数据组件,构建了一个一体化平台打通数据设计、开发、测试和运维各环节,实现编写代码、生产部署、调度监控全过程线上化,引入可视化编排、CI/CD等技术降低数据研发技术门槛,推动数据研发敏捷性,提高数据运维质量。

近年来,DataOps已从一个模糊的概念成功演化为具体的实践,得到了中国信

文档评论(0)

150****5147 + 关注
实名认证
文档贡献者

二级建造师持证人

分享知识,传播快乐!

领域认证 该用户于2024年03月19日上传了二级建造师

1亿VIP精品文档

相关文档