可扩展的气候数据分析:平衡拍字节级精度和计算成本-计算机科学-机器学习-气候分析.pdf

可扩展的气候数据分析:平衡拍字节级精度和计算成本-计算机科学-机器学习-气候分析.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

可扩展的气候数据分析:平衡拍字节级精度

和计算成本

AashishPantaAmyGoochGiorgioScorzelliMichelaTauferValerioPascucci

UniversityofUtahUniversityofUtahUniversityofUtahU.ofTennesseeatKnoxvilleUniversityofUtah

摘要—来自遥感和模拟的气候数据分辨率和数量的增长带辨率降低方法,保留有意义的见解,平衡准确性和资源

来了显著的存储、处理和计算挑战。传统的压缩或子采样方法通利用。

常会损害数据保真度,限制了科学见解。我们引入了一个可扩展

2.效率标度评估数据管理成本与科学可靠性之间的平

生态系统,整合了分层多分辨率数据管理、智能传输和机器学习

衡。随着数据集的扩大,计算开销成为一个重要约束,

辅助重建技术,以平衡准确性和效率。我们的方法将存储和计算

成本降低了99%,从10万美元降至24美元,同时保持均方根特别是在云环境中。我们分析了数据量、处理成本和准

本(RMS)误差为1.46摄氏度。实验结果证实,即使在大幅减少数确度之间的权衡,以展示我们的解决方案如何通过逐步

译据量的情况下,仍能保留进行精确气候分析所需的关键特征。该减少数据量大幅降低数据管理成本,同时保持科学完整

解决方案已在NASA的PB级气候数据集上得到验证,能够实性和准确性。

中现成本效益高、保真度高的气候分析,适用于研究和决策制定。

使用我们的生态系统,我们实现了对2.8PB的

1

vI.问题概述LLC4320海洋数据的数据使用量减少了99%,将存储、

6

0传输和计算成本从超过$100,000减少到大约$24,同时

0高分辨率的遥感和模拟气候数据提出了显著的存保持均方根(RMS)误差仅为1.46°C。

8储、处理和计算效率挑战。不断增加的数据量和细节导

0

.致了基于云的资源和带宽的巨大成本。传统的压缩或子

7II.可扩展数据生态系统

0采样方法可以降低成本,但常常会牺牲数据保真度,从

5

2而可能影响科学分析。随着数据集的增长和分析变得更我们的可扩展解决方案使用一个集成的数据生态

:

v为复杂,需要可扩展的数据管理方法来平衡保真度与计系统,这对于高效的大规模数据处理至关重要。它通过

i

x算成本。逐步提升分辨率策略、机器学习辅助重建和自适应保真

r

a我们提出一个可扩展的生态系统,使获取PB级科度来支持广泛的气候数据集,这些措施共同作用增强了

学数据变得大众化,同时支持决策制定。它整合了(i)存储、传输和分析性能。

分层多分辨率数据管理,(ii)智能传输与ML辅助重建,在其核心,生态系统使用分层多分辨率数据结构[3]

以及(iii)自适应保真度机制。我们的方法减少了存储[4],实现气候数据在不同详细层次上的高效存储、检

占用和网络传输时间,增强了高性能数据分析的可扩展索和处理。该生态系统不处理单一的高分辨率数据集,

性。通过允许受控近似,我们的解决方案在保持分析保而是将数据组织成逐步降采样的层级,允许在不同分辨

真度的同时,显著降低了科研社区的资源消耗和成本。率下进行计算。生态系统的数据管理组件通过根据任务

我们展示了我们的生态系统在2.8PB开放访问的特定需求调整数据保真度来动态修订逐步分辨率。对于

LLC4320海洋气候数据集(ECCO)[1]和37TBNEX-常规分析,首先处理低分辨率

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档