DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态奖励函数的设置)

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态奖励函数的设置)相关的知识,希望对你有一定的参考价值。

1 文章简介

本文原文可查阅文献:

Deep reinforcement learning based AGVs real-time scheduling with mixed rule for flexible shop floor in industry 4.0 - ScienceDirect

 本文针对对象为柔性车间,提出了一种基于混合规则的自适应深度强化学习(DRL) AGV实时调度方法,以最小化完工时间和延迟率为目标。

2 状态设置

        主要考虑任务状态和AGV状态,如下:

(1)任务数量,表示当前需要运输的任务总数。

(2)当前任务的平均剩余时间:

(3)当前任务的平均运行距离

(4)备选AGV的工作状态,用二进制数表示,空闲为0,不空闲为1.

(5)AGV的行驶速度。

3 奖励函数

        设计奖励函数是为了评估行动和优化政策。本研究旨在降低agv实时调度的完工时间和延迟率。为了在同一维度上评价这两个指标,引入时间成本和延迟成本的概念如下:

:表示AGV i操作任务k的延迟成本;:AGV i 的总延迟成本;:整个调度的总延迟成本

:任务k的运输时间;:AGV i的总延迟时间

 :AGV i执行任务k的时间成本;:总调度时间成本;T:makespan

随着上述成本的降低,调度绩效将得到改善。因此,根据延迟成本和时间成本定义奖励函数如下:

 :用于评估单个任务的行动的当前奖励;

:用于评估调度的整体性能的最终奖励;

:单个任务的平均延迟成本和平均时间成本

/:整个调度的平均延迟成本和平均时间成本

4 动作

 5 体系结构

算法框架:

 

6 效果 

 

 

以上是关于DQN学习使用混合规则的柔性车间AGV实时调度(关注点:状态奖励函数的设置)的主要内容,如果未能解决你的问题,请参考以下文章

AGV调度优化系列论文解读与汇总

用Python实现基于遗传算法(GA)求解混合流水车间调度问题(HFSP)

车间调度基于NSGA-2的求解多目标柔性车间调度算法

Tensorflow2.0实现|用Python实现多智能体强化学习(MARL)求解两AGV流水车间联合(Two-AGV-FSP)调度问题

Tensorflow2.0|基于深度强化学习(DQN)实现动态柔性作业车间调度问题(DFJSP)

优化求解基于NSGA-2的求解多目标柔性车间调度算法