使用强化学习进行多标准优化

Posted

技术标签:

【中文标题】使用强化学习进行多标准优化【英文标题】:Multi-Criteria Optimization with Reinforcement Learning 【发布时间】:2012-11-12 12:00:19 【问题描述】:

我正在研究系统的电源管理。我希望最小化的目标是功耗和平均延迟。我有一个目标函数,具有两个目标的线性加权和:

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

我正在使用 Q-learning 通过改变权重 w 并对功耗和平均延迟设置不同的偏好来找到帕累托最优权衡曲线。我确实获得了帕累托最优曲线。我现在的目标是提供一个约束(例如,平均延迟 L_avg),从而调整/找到 w 的值以满足给定的标准。我的是在线算法,所以 w 的调优应该在线进行。

能否在这方面向我提供任何提示或建议?

【问题讨论】:

【参考方案1】:

社区中有一个多目标强化学习分支。

想法是1:

为每个目标分配一组代理。将一个族中的智能体获得的解决方案与其他族的智能体获得的解决方案进行比较。协商机制用于找到满足所有目标的折衷解决方案。

还有一篇你可能感兴趣的论文:

基于强化学习的电力系统调度和电压稳定性多目标优化

但我没有找到它的公共网址。

【讨论】:

感谢您的建议。但推荐的多智能体 RL 论文/方法是用于离策略学习或情景任务。就我而言,我有一个在线学习问题。

以上是关于使用强化学习进行多标准优化的主要内容,如果未能解决你的问题,请参考以下文章

深度学习和深度强化学习的区别

多智能体强化学习和分布式强化学习的区别?

多智能体强化学习和分布式强化学习的区别?

自动驾驶中虚拟到现实的强化学习

强化学习介绍和马尔可夫决策过程详细推导

强化学习介绍和马尔可夫决策过程详细推导