多智能体系统中的高效决策与去核心化强化学习的运行 Nature 人造机器智能子刊

电脑网络维修
2024-11-15

随着技术的始终提高和数据量的爆炸性增长，大规模人工智能（AI）系统的需求日益参与。这些系统在交通治理、电力调配、市区布局等多个畛域展现出渺小的后劲。但是如何在扩展AI模型的同时坚持其功能，成为了一个亟待处置的难题。

大规模AI系统面临的关键应战在于其可扩展性和功能的平衡。传统的集中式AI方法在处置复杂义务时，往往须要少量的通讯和数据采样，这不只参与了系统的复杂性和老本，还或者造成功能的降低。此外随着系统规模的扩展，通讯提前和数据传输的瓶颈也变得愈加清楚。例如在交通网络中，频繁且大规模的通讯或者造成清楚的功率损耗和信号搅扰，从而影响系统的稳固性和效率。

散布式AI经过将复杂义务分解并调配给多个协作节点，可以清楚提高系统的可扩展性。多智能体强化学习（MARL）作为散布式AI的一种先进范式，曾经在智能驾驶、无线通讯、多玩家游戏、电力系统和市区交通等多个场景中取得了清楚停顿。MARL的长处在于其能够经过数据启动非线性拟合，并成功高效的推理。但是，虽然MARL无实践上具备诸多长处，但其在实践运行中的可扩展性和效率依然面临诸多应战。

9 月 3 日人造（Nature）期刊-机器智能子刊宣布的论文《Efficient and scalable reinforcement learning for large-scale network control》提出了一种基于模型的去核心化战略优化框架，旨在成功大规模网络控制中的高效可扩展强化学习。经过在智能体级别的拓扑解耦全局灵活，论文证实了这种去核心化机制可以准确预计全局消息。此外论文引入了模型学习，以在有限的采样数据下强化最优战略，成功干燥改良。试验证实，该方法在数百个智能体的实践系统中表现出优越的可扩展性，为大规模AI系统的扩展铺平了路线。

钻研团队由来自北京大学和伦敦国王学院的多位学者组成，他们在人工智能和多智能体系统畛域具备丰盛的钻研阅历。详细成员有Chengdong Ma，来自北京大学人工智能钻研院和多智能体钻研核心的钻研员，关键钻研方向包含大规模网络控制和强化学习；Aming Li是北京大学人工智能钻研院、多智能体钻研核心以及工程学院系统与控制核心的钻研员，钻研畛域涵盖系统控制和多智能体系统；Yali Du是伦敦国王学院消息学系的钻研员，钻研兴味包含散布式AI和多智能体系统；Hao Dong是北京大学计算机迷信学院CFCS的钻研员，专一于计算机迷信和人工智能的前沿钻研；Yaodong Yang是北京大学人工智能钻研院和多智能体钻研核心的钻研员，钻研方向包含强化学习和多智能体系统。这篇论文宣布在《人造》期刊的机器智能子刊上，表现了团队在该畛域的技术实力和钻研深度。

方法

钻研团队提出了一种基于模型的去核心化战略优化框架，旨在处置大规模网络控制中的高效可扩展强化学习疑问。该方法经过部分观察和全局灵活的拓扑解耦，成功了模型学习与战略优化的有效结合。此外，他们还引入了ξ依赖网络系统的概念，以更好地处置复杂系统中的环境转移疑问。

模型驱动的去核心化战略优化框架

在大规模网络系统中，智能体须要在部分观察的基础上做出决策，而不依赖于全局消息。为此钻研团队提出了一种基于拓扑解耦的去核心化机制，经过在智能体级别启动部分观察，成功对全局灵活的准确预计。这种方法不只缩小了通讯老本，还提高了系统的可扩展性。

详细来说，智能体经过与其街坊的部分通讯，失掉必要的消息来预计全局形态。经过这种模式，每个智能体只有处置与其间接相关的部分消息，而不须要失掉整个系统的全局消息，从而大大降低了计算和通讯的复杂性。

在该框架中，模型学习与战略优化严密结合，以成功高效的决策环节。首先，智能体经过与环境的交互，搜集形态、举措和鼓励数据，并经常使用这些数据训练预测模型。而后，智能体在预测模型的基础上启动战略优化，以提高决策的准确性和效率。

为了进一步提高模型的准确性，钻研团队引入了分支回滚方法。该方法经过从之前战略的形态散布中采样形态，并运转固定步数的回滚，结合模型驱动和无模型回滚的长处，缩小了模型误差，提高了战略优化的效果。

图2:咱们的方法架构、不同MDP之间的区别和咨询以及模型学习环节。

依赖网络系统

在大规模网络系统中，环境的灵活行为通常具备必定的部分性，即部分形态和举措不会清楚影响远处智能体的形态。基于这一观察，钻研团队定义了独立网络系统（INS）和ξ依赖网络系统。

独立网络系统（INS）假定环境的转移函数可以因子化，即每个智能体的形态转移仅依赖于其部分街坊的形态和举措。但是这一假定在实践运行中往往过于剧烈。因此，钻研团队提出了ξ依赖网络系统的概念，准许必定水平的依赖偏向，即部分形态和举措对远处智能体的形态有必定的影响。

在ξ依赖网络系统中，环境的转移函数可以近似为独立网络系统的转移函数加上依赖偏向。经过这种模式，智能体可以在部分模型的基础上，预测未来的部分形态，从而成功高效的决策环节。

钻研团队经过定义总变差距离（DTV）来度量实在环境转移函数与近似转移函数之间的差异。经过最小化这一差异，智能体可以在部分模型的基础上，准确预测未来的形态和鼓励，从而提高战略优化的效果。

论文提出的基于模型的去核心化战略优化框架，经过部分观察和全局灵活的拓扑解耦，成功了模型学习与战略优化的有效结合。引入的ξ依赖网络系统概念，为处置复杂系统中的环境转移疑问提供了新的思绪。经过这些方法，钻研团队成功地在大规模网络控制中成功了高效可扩展的强化学习，为未来的钻研和运行提供了关键的参考。

实践剖析

在论文中，钻研团队经过详细的实践剖析，证实了所提出方法的有效性和可行性。关键从干燥模型改良和战略梯度近似两个方面启动讨论。

干燥模型改良

在模型驱动的强化学习中，战略报答的界限是评价战略功能的关键目的。钻研团队定义了战略在实在环境中的报答和在近似模型中的报答，并构建了两者之间的差异界限。战略报答的界限可以示意为：

其中，η[π]示意战略在实在环境中的报答，η[π^]示意战略在近似模型中的报答，C是一个非负函数，πD是数据搜集战略。经过确保每次战略降级至少提高必定的报答，可以成功干燥改良。

为了进一步提高模型的准确性，钻研团队引入了分支回滚打算。传统的回滚方法假定模型在有限期间范围内经常使用，而分支回滚打算则从之前战略的形态散布中采样形态，并运转固定步数的回滚。经过这种模式，分支回滚打算能够有效结合模型驱动和无模型回滚的长处，缩小模型误差，提高战略优化的效果。

详细来说，分支回滚打算的长处在于：

战略梯度近似

在战略优化环节中，值函数用于计算长处函数。钻研团队提出了一种扩展值函数的计算方法，经过街坊智能体的消息来近似全局值函数，扩展值函数可以示意为：

经过这种模式，扩展值函数能够在仅依赖街坊消息的状况下，准确预计全局值函数，从而提高战略优化的效果。

钻研团队进一步证实了基于扩展值函数计算的战略梯度是实践战略梯度的近似。战略梯度的近似精度可以示意为：

其中，示意基于扩展值函数计算的战略梯度，

和区分示意鼓励和梯度的上界。经过这种模式，钻研团队证实了基于扩展值函数计算的战略梯度在误差较小的状况下，能够有效近似实践战略梯度。

论文经过详细的实践剖析，证实了所提出方法在干燥模型改良和战略梯度近似方面的有效性和可行性。经过这些实践剖析，钻研团队为成功大规模网络控制中的高效可扩展强化学习提供了松软的实践基础。

试验结果

在论文中，钻研团队经过一系列试验验证了所提出方法在大规模网络控制中的有效性和可扩展性。试验涵盖了多个评价场景和目的，包含车辆控制、疫情网络控制和电力控制。以下是试验设置、结果剖析以及与现有方法的功能对比。

图3 :关键训练结果和消融钻研。

试验设置

为了片面评价所提出方法的功能，钻研团队设计了多个试验场景，包含交通系统中的车辆控制、疫情网络中的防控战略以及电力系统中的电压控制。每个试验场景都具备高度的事实性和复杂性，旨在模拟实践运行中的应战。

在车辆控制试验中，钻研团队选用了协作自顺应巡航控制（CACC）和衔接自主车辆控制（Flow）作为评价场景。经过控制车辆的速度和车距，评价所提出方法在交通流量治理中的效果。

在疫情网络控制试验中，钻研团队模拟了一个大规模的疫情流传场景，经过调整不同社会单位的控制战略，评价所提出方法在控制重症病例和死亡病例方面的表现。

在电力控制试验中，钻研团队选用了IEEE电力网和实践电力系统作为评价场景，经过控制电压和功率损耗，评价所提出方法在电力系统中的运行效果。

图4:CACC、Flow和盛行病网络车辆控制评价结果。

评价场景和目的

在每个试验场景中，钻研团队选用了多个关键目的来评价所提出方法的功能。这些目的包含：

结果剖析

在CACC和Flow义务中，所提出的方法能够稳固控制车辆的速度和车距，确保交通流量的效率和安保性。详细来说，车辆的速度和车距能够稳固在目的值左近，防止了交通拥挤和意外的出现。此外，所提出的方法在交通流量治理中表现杰出，清楚提高了交通流量的效率。

图 5：ATSC 对大规模交通管制的评价结果。

在疫情网络控制试验中，所提出的方法能够有效控制重症病例和死亡病例的数量，使其低于医院的最大容量，减轻了医护人员的压力。详细来说，所提出的方法在多个场景中坚持较低的死亡率，同时尽或者平衡区域经济开展。这标明，所提出的方法在疫情防控中具备清楚的长处，能够在保障公共肥壮的同时，促成经济的可继续开展。

在电力控制试验中，所提出的方法能够在缩小通讯老本的同时，坚持牢靠的控制功能和对随机搅扰的顺应性。详细来说，所提出的方法在大规模电力网场景中展现了较高的安保控制率和较低的功率损耗，证实了其在随机搅扰下的顺应性和可扩展性。此外，所提出的方法在电压控制方面表现杰出，能够在不同负载条件下坚持电压的稳固性。

功能对比

在与现有方法的比拟中，所提出的方法在多个评价目的上表现杰出。详细来说，所提出的方法在车辆控制、疫情网络控制和电力控制试验中，均清楚优于现有的基准方法。这标明，所提出的方法在大规模网络控制中的功能和可扩展性方面具备清楚长处。

在样本效率和通讯老本方面，所提出的方法也表现杰出。详细来说，所提出的方法经过部分观察和全局灵活的拓扑解耦，清楚缩小了通讯老本，提高了样本效率。这不只降低了系统的能耗，还提高了系统的实时性和牢靠性。

图6：电网和实在电力网大规模电力控制的评价结果。

论文经过一系列试验验证了所提出方法在大规模网络控制中的有效性和可扩展性。经过这些试验结果，钻研团队证实了所提出的方法在多个实践运行场景中的后劲，为未来的钻研和运行提供了关键的参考。

讨论

在论文中，钻研团队提出了一种基于模型的去核心化战略优化框架，用于处置大规模网络控制中的高效可扩展强化学习疑问。经过试验验证和实践剖析，论文的方法展现了清楚的长处和后劲。

方法的长处

论文提出的方法在多个试验场景中展现了高功能和低通讯老本的清楚长处。经过部分观察和全局灵活的拓扑解耦，智能体能够在仅依赖街坊消息的状况下，准确预计全局形态。这种去核心化机制不只缩小了通讯老本，还提高了系统的可扩展性。

详细来说，在车辆控制试验中，所提出的方法能够稳固控制车辆的速度和车距，确保交通流量的效率和安保性。在疫情网络控制试验中，所提出的方法能够有效控制重症病例和死亡病例的数量，使其低于医院的最大容量，减轻了医护人员的压力。在电力控制试验中，所提出的方法能够在缩小通讯老本的同时，坚持牢靠的控制功能和对随机搅扰的顺应性。

高样本效率是论文方法的另一大长处。经过引入分支回滚方法，智能体能够在有限的采样数据下，强化最优战略，成功干燥改良。分支回滚方法经过从之前战略的形态散布中采样形态，并运转固定步数的回滚，结合模型驱动和无模型回滚的长处，缩小了模型误差，提高了战略优化的效果。

在试验中，所提出的方法在多个评价目的上均清楚优于现有的基准方法，展现了其在样本效率方面的长处。这不只降低了系统的能耗，还提高了系统的实时性和牢靠性。

未来钻研方向

虽然论文的方法在多个方面展现了清楚的长处，但仍有一些值得进一步钻研和探求的方向。

系统拓扑的优化是未来钻研的一个关键方向。经过优化智能体之间的通讯拓扑结构，可以进一步缩小通讯老本，提高系统的可扩展性和鲁棒性。未来的钻研可以探求不同的拓扑结构对系统功能的影响，并设计出最优的通讯拓扑结构，以成功更高效的决策环节。

模块扩展也是未来钻研的一个关键方向。经过引入视觉和人造言语处置模块，可以进一步提高系统的智能水温和顺应性。例如，在智能驾驶畛域，结合视觉模块可以成功更准确的环境感知和决策；在智能家居畛域，结合人造言语处置模块可以成功更人造的人机交互和控制。

总之，钻研团队提出的基于模型的去核心化战略优化框架，经过部分观察和全局灵活的拓扑解耦，成功了高效可扩展的强化学习。未来的钻研可以在系统拓扑的优化和模块扩展方面启动深化探求，以进一步提高系统的功能和智能水平。经过这些钻研，钻研团队宿愿为大规模AI系统的可扩展性和高效性提供新的处置打算，并推进该畛域的进一步开展。（END）

参考资料：

本文转载自，作者：

关注微信

上一篇：国际大模型代理商的骚操作

下一篇：碳关税是什么企业如何冷静应答碳课堂

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5968.html

多智能体系统中的高效决策与去核心化强化学习的运行 Nature 人造机器智能子刊

相关上班

方法

依赖网络系统

实践剖析

干燥模型改良

战略梯度近似

试验结果

试验设置

评价场景和目的

功能对比

讨论

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

商品系统什么是商品治理系统你知道吗

深度winxp中电脑声音不正常该如何修复

是全村宿愿还是智商税开源模型

如何减轻实在存在的物联网安保风险

数据仓库平台Snowflake的片面控制指南

关注我们

多智能体系统中的高效决策与去核心化强化学习的运行 Nature 人造 机器智能子刊

相关上班

方法

依赖网络系统

实践剖析

干燥模型改良

战略梯度近似

试验结果

试验设置

评价场景和目的

功能对比

讨论

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

多智能体系统中的高效决策与去核心化强化学习的运行 Nature 人造机器智能子刊