Throughput Optimization for Grant-Free Multiple Access With Multiagent Deep Reinforcement Learning(代

Posted 2021-09-03 看不懂论文的金鱼

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Throughput Optimization for Grant-Free Multiple Access With Multiagent Deep Reinforcement Learning(代相关的知识，希望对你有一定的参考价值。

Ref:R. Huang, V. W. S. Wong and R. Schober, “Throughput Optimization for Grant-Free Multiple Access With Multiagent Deep Reinforcement Learning,” in IEEE Transactions on Wireless Communications, vol. 20, no. 1, pp. 228-242, Jan. 2021, doi: 10.1109/TWC.2020.3024166.
Abstract
$\\quad\\quad$ 非授权多址(GFMA)有希望有效支持物联网设备的上行接入。在本文中，我们为GFMA系统提出了一种基于深度强化学习(DRL)的导频序列选择方案，以减轻潜在的导频序列冲突。我们将具有特定吞吐量约束的GFMA系统中总吞吐量最大化的导频序列选择问题公式化为马尔可夫决策过程(MDP)。通过利用多智能体DRL，我们训练深度神经网络(DNNs)从底层MDP的过渡历史中学习接近最优的导频序列选择策略，而不需要用户之间的信息交换。虽然训练过程利用了全局信息，但我们利用因子分解技术来确保DNN策略可以以分布式方式执行。仿真结果表明，该方案的平均总吞吐量在最优值的85%以内，分别比基于确认的GFMA、动态接入类别限制和随机选择GFMA方案高31%、128%和162%。我们的结果还证明了所提出的方案支持具有特定吞吐量要求的物联网设备的能力。

Introduction

$\\quad\\quad$ 物联网(Internet of Things, IoT)是一个很有前途的范式，可以支持各种类型的应用，包括智能家居、智能城市、智能交通系统和智慧医疗等等[2]。因此，物联网被认为是工业4.0的重要推动者[3]。虽然物联网得益于大量设备提供的数据[4]，但这也给无线通信系统带来了新的挑战。由于资源有限，无线通信系统需要支持大量的物联网设备。据估计，到2023年，全球将会有147亿个机器类型的连接[5]。此外，不同的物联网设备根据其应用和服务可能有不同的数据速率或吞吐量要求[2]。因此，无线通信系统必须实现高效的物联网数据传输，以便能够支持大量具有不同吞吐量需求的设备。

$\\quad\\quad$ 非授权多址接入(Grant-free Multiple Access, GFMA)可以通过提高频谱效率和减少接入延迟来应对无线系统中出现的这些挑战[6]，[7]。在GFMA中，物联网设备从预先分配的资源池中选择导频序列，并将其数据发送到基站，而不向基站发送接入请求。基站在成功解码后向设备发送确认(ACK)。GFMA的时序图示于图1。与LTE中基于四步授权的随机接入相比，GFMA只需要两步接入。因此可以有较低的信令开销，并减少随机接入过程中物联网设备的接入延迟。此外，当与非正交多址(NOMA)结合时，多个物联网设备可以同时向共享相同物理资源块的基站(GFMA系统中的PRB)传输它们的数据包[8]。

$\\quad\\quad$ 为了充分利用GFMA，必须克服两个挑战。首先，由于缺乏集中调度，当多个物联网设备选择相同的导频序列时，就会发生分组冲突，从而导致解码失败和吞吐量下降。因此，每个设备都应该选择一个特定的导频序列，将自己的信号与其他设备的信号区分开来，以确保接收机成功进行信道估计和解码[8]。其次，异构物联网设备之间无法协调传输或交换信息。每个设备独立地选择导频序列，而不知道其他设备的选择。此外，由于缺乏对其他设备吞吐量需求的了解，物联网设备可能贪婪地占用太多网络资源，从而无法满足其他设备的吞吐量需求。
$\\quad\\quad$ 目前有很多学者提出了许多方案来解决GFMA系统中导频序列选择的冲突问题[9]–[11]。[9]中的作者提出了一种基于ACK的调度方案，其中经历分组冲突的设备从其他设备尚未选择的剩余导频序列中选择新的导频序列，并重传分组。作者在[10]中提出，基站保留一些导频序列用于当分组冲突发生时设备的重传。然后，基站通过广播确认向设备通知保留的导频序列。对于基于确认的解决方案[9]，[10]，虽然冲突在重传阶段得到解决，但是当设备第一次发送数据包时，冲突仍然会发生，因为只有在冲突发生后才执行调度。[11]中的作者提出了一种导频序列分配方案，其中基站将导频序列预分配给那些在下一时隙中传输分组的概率较高的设备。然而，在[11]中的分配方案需要集中调度和发射概率的精确估计。此外，上述方案没有考虑任何吞吐量需求，因此可能无法支持不同类型的物联网应用。
$\\quad\\quad$ 深度强化学习(DRL)是一种基于深度神经网络的无模型学习的技术。DRL不依赖于预先建立的系统模型，是解决具有大决策空间的优化问题的有力工具[12]，[13]。与基于多武装匪徒问题的解决方案[14]–[16]相比，基于DRL的解决方案可以被推广并应用于具有不同系统模型和目标的问题。对于本文的问题，利用DRL，DNN可以通过训练之前的序列选择来学习用于导频序列选择的分布式策略。基于预先训练的DNN，设备可以避免与其他设备的冲突，而不需要设备之间的信息交换。
$\\quad\\quad$ 将传统的多智能体强化学习(MARL)与决策神经网络相结合，多智能体DRL (MA-DRL)可以联合训练多个决策神经网络来联合学习策略，从而有效地处理非平稳多智能体决策过程[17]–[19]。但GFMA协议设计中尚未考虑DRL方式。然而，从认知无线电中分布式频谱接入的DRL应用中可以获得一些启发[20]–[22]。文献[20]的作者利用DRL设计了一种分布式多信道接入方案，以降低冲突概率，最大化信道利用率。在[21]中，DRL被用来研究多用户的合作和非合作信道接入。作者在[21]中表明，通过适当地设计合作奖励函数，基于DRL的信道接入方案可以在比例公平方面产生比使用个人奖励函数更好的性能。作者在[22]中提出了一种基于DRL的异构无线网络信道接入方案。文献[22]的结果表明，通过使用一个MA-DRL框架和一个合作奖励函数，可以实现最大的总吞吐量和比例公平。综合吞吐量最大化和比例公平是α公平的两种特殊情况，已在[21]和[22]中进行了研究，但上述研究中提出的DRL框架不能应用于用户可能有不同吞吐量要求的无线系统。后一种情况可以被视为比例公平的一般情况，其中用户基于其特定的吞吐量需求被优先化。与α-公平性相比，在这种情况下，对于DNN来说，学习关于设备的特定吞吐量需求的导频序列选择策略更困难。
$\\quad\\quad$ 为了解决上述问题，本文提出了一种基于MA-DRL的分布式导频序列选择方案，用于GFMA系统中的聚合吞吐量最大化，其中我们考虑了不同的用户吞吐量需求。每个物联网设备既不知道导频序列选择决策，也不知道其他设备的吞吐量要求。由于每个设备缺乏全局信息，设计一个促进物联网设备之间协作的分布式方案，以满足不同设备的吞吐量需求是一项挑战。在本文中，我们利用递归神经网络的潜力来处理底层决策过程的不完全信息，并研究其学习导频序列选择策略的能力，从而在满足不同吞吐量需求的同时，最大化总吞吐量。
$\\quad\\quad$ 为了更好地解决设备之间非平稳性和缺乏协调性等问题，我们进一步提出了一个MA-DRL训练框架，在该框架中，联合训练所有设备的DNN，在基站的全局信息的帮助下学习导频序列选择策略。使用因子分解技术[18]，[23]，在联合训练期间学习的策略可以以分布式方式执行。我们的贡献如下:

我们建模导频序列选择问题来解决GFMA系统中的吞吐量优化问题，我们的建模也具有 IoT 设备的平均吞吐量限制。我们应用随机网络优化[24]并提出一种算法来获得最优解。在依赖于集中调度的同时，当评估所提出的基于DRL的方案的性能时，最优解可以充当基准。
我们将导频序列选择过程建模为马尔可夫决策过程(MDP)，并提出了一种导频序列选择方案，其中基于DRL对dnn进行训练，以从物联网设备的底层MDP的过渡历史中学习导频序列选择策略。我们提出了一种深度递归Q网络(DRQN)来利用rnn的能力来有效地学习时间序列学习问题中系统转换的时间相关性。
利用因式分解技术，我们提出了一个集中式训练分布式执行框架。在建议的训练框架中，所有物联网设备的DRQNs都是利用基站的全局信息进行联合训练的，而在集中训练阶段学习到的策略可以以分布式在线方式执行。
我们进行仿真来评估所提出方案的性能。我们的结果表明，DNN能够学习物联网设备的接近最优的导频序列选择策略。对于所考虑的系统，所提出的方案可以实现85%最优范围内的总吞吐量。该方案的总吞吐量分别比基于确认的方案[9]、动态接入类别限制(ACB) [25]和随机选择方案高31%、128%和162%。通过DRL学习的导频序列选择策略也可以适应物联网设备的不同吞吐量要求。因此，所提出的方案能够支持GFMA系统中不同的物联网应用。
$\\quad\\quad$ 本文的其余部分组织如下。第二节介绍了系统模型和问题表述。第三节介绍了DRL导频序列选择框架。第四节介绍了DNN体系结构和训练算法。第五节提供了模拟结果。第六节得出了结论。

SYSTEM MODEL AND PROBLEM FORMULATION

$\\quad\\quad$ 我们考虑一个GFMA系统，其中一个基站服务多个用户。基站和每个用户配备一个天线。时间被划分为相等的时间间隔。时间间隔 $[t, T + 1]$ 称为时隙 $T$ ，其中 $\\in T=\\{0,1,2,\\cdots,t_{1}\\}$ 。基站主动控制网络资源分配，以用于GFMA传输。特别地，每个时隙基站会为GFMA传输分配一个PRB，即一个时频资源块。我们假设基站在每个时隙中将K个导频序列分配给PRB，并且 $\\mathbb{K}$ ${1，2，...K}$ 是导频序列索引的集合。韦尔奇界等式序列、格拉斯曼序列或其他类型的稀疏扩展序列可以用作导频序列。
$\\quad\\quad$ 在所考虑的系统中，一共有N个用户，用 $\\mathbb{N}$ ${1，2，...N}$ 表示。所有数据包都使用GFMA传输。在每个时隙的开始，基站通过无线电资源控制信令向用户通知PRB和K个可用导频序列。当用户决定发送时，它在K个可用导频序列中选择1个并执行上行链路传输。我们假设当用户决定执行上行链路传输时，总是有分组要发送。如果用户 $\\in N$ 在时隙 $\\in T$ 中选择第K个导频序列 $k\\in K$ ，我们定义二进制变量 $g_{nk}\\in \\{0,1\\}$ ,当 $g_{nk}(t)$ 等于1时，用户 $n\\in N$ 选择了第 $k$ 个导频序列。否则， $g_{nk}(t)$ 等于0。用户在每个时隙中最多只能选择一个导频序列，我们有
$\\sum _{k\\in \\mathcal {K} } g_{nk}(t) \\leq 1, \\quad n\\in \\mathcal {N}, t\\in \\mathcal {T}.\\tag{1}$
当 $\\sum_{k\\in K}g_{nk}(t)=0$ 时，用户 $n$ 在时序t中不会传输数据。定义 $g_{n}(t)=(g_{n1}(t),g_{n2}(t),\\cdots,g_{nK}(t))$ 为用户 $n$ 在时序t中的导频序列选择向量。定义 $n_{k}(t)$ 为在时序 $t$ 内选择第k个导频序列的用户数，我们有：
$n_{k}(t) \\triangleq \\sum _{n\\in \\mathcal {N} } g_{nk}(t),\\quad k\\in \\mathcal {K}, t\\in \\mathcal {T}.\\tag{2}$
此外， $S (t)$ 表示选择选择在时隙 $t$ 中没有被其他用户选择的导频序列的一组用户,即
$\\mathcal {S}(t)\\triangleq \\left\\{{n \\: \\Bigl \\vert \\: \\sum _{k\\in \\mathcal {K} } {\\mathsf{1}} (n_{k}(t) = 1) g_{nk}(t) \\:=\\: 1, \\:n\\in \\mathcal {N} }\\right\\},\\quad t\\in \\mathcal {T},$
其中， $1(\\cdot)$ 为指示函数。
在接收机侧，基站基于接收的导频序列估计信道，然后解码用户的分组。对于选择了其他用户没有选择的导频序列的用户，我们假设基站可以执行完美的信道估计，并应用多用户检测来减轻用户之间的干扰[8],[26]，并成功解码他们的分组。然而，当多个用户选择相同的导频序列时，基站不能估计用户的信道，因此不能解码他们的分组[27]。换句话说，我们假设基站只能成功解码集合 $S (t)$ 中用户的数据。对于用户 $\\in N$ ，我们将 $r_{n}(t)$