BEAVER: 构建具有可评估变化的环境以评估多目标强化学习-计算机科学-机器学习-建筑能源管理-强化学习.pdfVIP

BEAVER: 构建具有可评估变化的环境以评估多目标强化学习-计算机科学-机器学习-建筑能源管理-强化学习.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

BEAVER:构建具有可评估变化的环境以评估多目标强化学习

112

RuohongLiuJackUmenbergerYizeChen

Abstract1.介绍

考虑一个在一组建筑中部署控制器的建筑操作员。

每个建筑物由于建筑材料、暖通空调配置或地理位

近年来,在为建筑能源管理设计基于强化

置的不同,其热动态特性可能会有所不同。此外,不

学习(RL)的代理方面取得了显著进展。

同的用户群体可能优先考虑相互冲突的目标——一

虽然在模拟或受控环境中观察到了个体成

些人重视减少碳排放,而另一些人则专注于降低电

功,但在效率和跨建筑动态及运营场景泛

费。在这种现实场景中,控制器需要能够适应未见

本化能力方面的RL方法可扩展性仍然是一

过的建筑条件并调整以满足多样化的用户偏好。

译个开放问题。在这项工作中,我们正式描述

中了跨环境、多目标建筑能源管理任务的泛为了将基于学习的决策方法应用于建筑系统,训练

2化空间,并制定了多目标上下文强化学习过的代理面临与楼宇操作员相似的挑战:多样化的

v问题。这种表述有助于理解在多种控制目目标和变化的环境(Nweyeetal.,2023)。强化学习

9

6标如舒适度和能耗下,在不同操作背景下(RL)算法有望与复杂的未知楼宇动态进行互动,

7

7(例如气候和热对流动态)转移所学策略的并对各种暖通空调设备实施高维控制动作。这些算

0.挑战。我们提出了一种原则性的方式来参法已被证明在优化供暖、通风和空调系统操作以提

7数化此类现实世界建筑RL环境中的上下高能源效率或居住舒适度方面有效(Goldfeder

0

5文信息,并构建了一个新颖的基准,以促Sipple,2023;Yuetal.,2021)。然而,在这种情况

2

:进泛化强化学习算法在实际建筑控制任务下仍有两个关键挑战未被充分探索:强化学习代理

v

i中的评估。我们的结果显示,现有的多目跨多样化楼宇动态的泛化能力,以及同时优化多个

x

r标RL方法能够在冲突的目标之间实现合往往相互冲突目标的需求。大多数现有的基于RL

a

理的权衡。然而,在某些环境变化下,其的控制器需要大量的样本,并且在相同的建筑配置

性能会下降,强调了将依赖动态的上下文上进行训练和评估,这限制了它们在实际应用中的

信息纳入策略学习过程的重要性。适用性,在这些应用场景中,部署环境可能有所不

同(Teohetal.,2025;Xuetal.,2020)。此外,现实世

界的楼宇控制任务通常需要平衡多个目标,例如减

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档