多智能体强化学习在智能工厂在线调度中应用

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多智能体强化学习在智能工厂在线调度中应用相关的知识,希望对你有一定的参考价值。

来源:Robotics and Computer-Integrated Manufacturing/2021

论文:Multi-agent reinforcement learning for online scheduling in smart factories

传统的制造系统采用集中式结构进行数据分析和订单调度,由于过于依赖中央控制器和有限的通信通道,效率低下且不可靠。物联网(IoT)和云技术使构建多智能体系统(MAS)等分布式制造体系结构成为可能。最近,人工智能(AI)方法被用于解决制造环境中的调度问题。然而,在具有异构制造单元的分布式系统中,调度算法很难处理高维数据。

因此,本文提出了一种新的智能工厂中的网络物理集成(Cyber-physical Integration),以解决小批量高混合订单的在线调度问题。首先,制造单位通过物联网技术通过网络物理系统(CPS)相互连接。加工操作的属性由射频识别(RFID)标签存储和传输。其次,我们提出了一种人工智能调度器,该调度器采用新颖的神经网络为每个单元(如仓库、机器)调度实时传感器数据的动态操作。每个AI调度器可以通过学习其他调度器的调度经验来与其他调度器协作。第三,设计了新的奖励函数,提高了基于强化学习(RL)的多智体调度器的决策能力。通过实际案例研究,对所提出的方法在智能工厂中进行了评估和验证。实验结果表明,新的智能工厂体系结构不仅提高了多个人工智能调度器的学习和调度效率,而且能够有效地处理紧急订单和机器故障等突发事件。

1 介绍

工厂的“智慧性”可以从两个方面来提高,包括结构的重新设计调度的优化。物联网的快速发展推动了数据传感、传输和分析技术的发展。为了从机器和订单中获取传感器数据,提出了不同的智能工厂体系结构。例如,工厂可以划分为不同的功能层,如执行层、适配层、通信层和计算层。计算层对大数据进行积累和分析,以监控工厂或更新基于模拟的方法制定的调度策略。然而,当大量操作同时初始化时,集中式体系结构在数据处理方面是无效的。为此,提出了一种分布式体系结构,将中央计算层的任务分解并分配给制造车间中的不同计算单元。为了处理小批量多品种制造环境中的不确定性,早期研究定期重调度资源以在离线管理中的最优调度,这需要极大的额外计算时间。 云和传感技术将异构的制造资源(如订单、机器、仓库和物料搬运设备)连接起来,并以仿真的方式实现在线调度,如多智能体系统(MAS)。然而,大多数基于仿真的方法在使用实时传感器数据进行在线调度的能力方面受到限制。近年来,人工智能(AI)通过从数据中学习和积累经验来解决动态调度问题引起了人们越来越大的兴趣。然而,利用高维传感器数据进行生产调度是困难的,特别是在分布式体系结构中考虑多个目标时。

通过协调智能工厂中的多个人工智能调度器,提出了一种新的网络物理集成体系结构,以实现数据驱动的在线调度。我们为智能工厂中的每个物理单元设计了一个人工智能调度器,根据工序和机器的实时状态来调度订单。决策算法在车间的分布式计算单元上运行,而不是在中央服务器上运行,这减少了不必要的通信,提高了调度效率。每个AI调度器都有四个新颖的神经网络,可以获取高维数据用于在线决策。新的复合奖励功能旨在帮助AI调度员优化多个目标,如最大限度地减少完工时间和平衡工作负载。为了在具有多个决策者的动态环境中实现全局优化,所提出的人工智能调度器不仅学习自己的运行数据,还学习其他人工智能调度器的经验。

2 制造系统体系结构

制造系统包括各种设备(例如,机器、仓库和物料搬运机),以根据设计要求完成订单。我们将“工单”定义为只包含一个部件的定制订单,即一个工单代表一个个性化部件。包含一个或多个操作的工作单存储在库存(即仓库)中,然后由物料处理系统(MHS)在机器之间进行处理。制造系统的体系结构设计包括单元(即机器、MHS)布局草图、工单跟踪和通信协议。通常,有效的架构通过节省时间、降低成本和平衡工作负载来帮助提高制造车间的运营绩效。

3 网络物理体系结构

网络物理系统连接所有异构单元,并在云和车间之间传输数据。建议的体系结构如图1所示。说明智能工厂的组件和互联。物联网通过局域网(LAN)连接所有单元,并与云共享数据。智能工厂由机器、物料处理机(例如自动导引车(AGV)、机器人)、仓库和监督员组成。工单生成和工艺规划在云中进行,在云中设计了一些网络模块(如数字模型、数据库、订单预处理)来监控和分析制造系统。

图1 CPS的体系结构

3.1 产品跟踪和数据流

在智能工厂中,调度系统应该跟踪工单,以便制定合理的计划。操作流程由工序属性驱动,大量数据在系统中流动时被感知和存储以供分析。产品跟踪和数据流的流程如图2所示。

图2 智能工厂中法兰盘的工单处理和数据传输过程

3.2 AI 调度器之间的通信

AI调度器被唤醒,因为它具有可调度的工作单,或者其他调度器询问其相应机器的状态。图3示出了人工智能调度器之间的通信。 图3展示了四台机器来调度的七个工单。工单O3和O4同时在机器1和2的缓冲器中等待调度。机器1和机器2的AI调度器应该询问可用机器的实时状态,并分别为工单O3和O4的下一次操作选择最优机器。两个调度动作可以独立进行,不会中断,调度策略由AI调度员根据自己的观察制定。机器3和4的AI调度器被部分唤醒,以提供其相应机器的实时状态。

图3 AI调度器之间的协作以制定最佳策略

如图4所示,AI调度器在机器的IPC上运行,并与通信层、AI层和适配层一起工作。通信层通过物联网将机器与相应的RFID阅读器或其他单元连接起来。适配层使AI调度器能够与相应的机器交换数据。当工单进入机器的缓冲器时,RFID读取器从RFID标签中获取当前操作属性,通信层将操作传送到AI层。然后,当之前的操作完成时,AI层根据其属性为当前操作生成数控(NC)代码。NC代码通过适配层发送到计算机数控(CNC)系统。在图1所示的机器人将工单放到工作台上后,机器开始加工操作。工单和机器的状态被实时传送给主管和其他相关单位。当工单的当前操作完成时,更新RFID标签上的数据,并初始化工单的下一次操作。AI调度器根据其他机器的当前状态调度下一次操作。

图4 AI调度器和数据流在IPC上的实现

4 构建AI 调度器

4.1 用于生产调度的RL

表1列出了多Agent强化学习(MARL)和分布式生产调度之间的类似关系。在MARL算法中,每个Agent基于环境的状态采取行动,并积累状态转换的回报。代理通过共享自己的策略来与他人交互,以实现共同目标。在拟建的智能工厂中,每个单元都配备了AI调度器,可以独立调度相应缓冲区中的工单。机器的状态会动态更新,并立即与相关的调度器共享。调度策略由AI调度器根据当前操作的属性和其他机器的实时状态制定。调度员可以通过自己的奖励函数获得对调度策略的奖励。

4.2 AI 调度器之间的协作

每台机器的AI调度器可以独立进行实时决策,不受其他机器故障的影响。如图5所示,每个AI调度器都有一个调度策略网络和一个制造价值网络。调度策略网络根据工序和机器属性的传感器数据实时输出调度。工序的属性是从工单的RFID标签派生出来的。安装在机器上的传感器获取相应机器的动态属性和剩余工作负荷。例如,图5中的法兰的车削操作已经在车床上完成,其铣削操作正在等待安排。目前车床的AI调度器负责为法兰的铣削操作选择合适的铣床,它可以从智慧工厂获得调度策略的奖励。制造价值网络提供用于更新调度策略网络的所有相关AI调度器的状态-动作值。

图5 人工智能调度员之间在调度工单和提高决策能力方面的协作图5

4.3 状态、动作、奖励函数构建

 

 

综合工序优先级、等待时长率、机器利用率。AI调度器应用复合奖励函数和调整方程中的权重来适应不同的工作条件。

 

4.4 AI 调度器训练架构

以上是关于多智能体强化学习在智能工厂在线调度中应用的主要内容,如果未能解决你的问题,请参考以下文章

基于强化学习的多智能体框架在路由和调度问题中的应用

Tensorflow2.0实现|用Python实现多智能体强化学习(MARL)求解两AGV流水车间联合(Two-AGV-FSP)调度问题

多智能体强化学习和分布式强化学习的区别?

多智能体强化学习和分布式强化学习的区别?

多智能体强化学习入门

多智能体强化学习:多智能体系统