量子CNN不存在梯度消失问题,物理学家已完成理论证明

Posted QbitAl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了量子CNN不存在梯度消失问题,物理学家已完成理论证明相关的知识,希望对你有一定的参考价值。

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

量子计算机上的机器学习,也就是量子神经网络(QNN),有许多传统神经网络望尘莫及的潜力,比如量子数据分析。

然而许多QNN架构,没法对大型问题进行训练,因为它们都存在着“贫瘠高原”(barren plateau),也就是随系统规模增大梯度呈指数级消失的问题。

这无疑当头一盆冷水。

克服不了这个问题,就没法挖掘量子计算机在人工智能应用中的全部潜力。

好在,来自美国阿拉莫斯实验室(LANL)的科学家经过分析发现,最新提出的量子卷积神经网络 (QCNN),不会出现梯度消失

这一发现无疑具有巨大的突破性,可以为量子人工智能在材料发现等应用的研究之路清除障碍。

不存在梯度消失问题的量子卷积神经网络

先来看看什么是量子卷积神经网络。

它由哈佛大学于2019年提出,是一种特殊的量子神经网络,涉及一系列卷积层和池化层交错,在保留相关数据特征信息的同时减少了量子比特的数量。

QCNN可用于纠错、量子相位检测和图像识别等方面。

 QCNN概念图

来自阿拉莫斯实验室的研究人员一直在研究如何减轻量子神经网络中“贫瘠高原”的影响,但一直缺乏完全规避该问题的方法。

ps.之所以在量子计算机中叫“贫瘠高原”,是因为它和普通神经网络中的梯度消失还不能说是完全一模一样。

“贫瘠高原”是指当量子计算机的比特数目较大时,当前量子神经网络的框架很容易变得无法有效进行训练,其目标函数会变得很平,导致梯度太低难以继续训练。

回到此项研究,这次研究人员针对以下两个假设严格分析了QCNN成本函数梯度的scaling:

(1) QCNN中的所有2-qubit单元形成独立不相关的2-designs(用低深度量子电路可轻松满足);

(2)成本函数相对于输入密度矩阵是线性的。

最终,在这两个假设下,他们证明了成本函数偏导数的方差随着系统大小消失的速度并不比多项式快。

这意味着成本函数landscape中不会表现出“贫瘠高原”,因此QCNN体系结构可以在参数的随机初始化下进行训练——这可是许多QNN体系结构都不能做到的。

ps.证明过程采用了一种新的图形表示方法,也涉及了较复杂的推导,感兴趣的可以查看论文。

研究人员表示,这样的QCNN是可以短期内实现量子计算机机器学习优势的候选框架。

具体的例子比如,将陶瓷材料作为高温超导体改善磁悬浮列车等无摩擦运输时,需要筛选给定材料各种状态的大量相(phase)数据集,并将这些状态与相位关联,以确定高温超导的最佳状态。

但这种事情普通计算机上的神经网络根本没法做到,而量子神经网络在未来就可以。

论文地址:
https://journals.aps.org/prx/abstract/10.1103/PhysRevX.11.041011

参考链接:
https://phys.org/news/2021-10-breakthrough-proof-path-quantum-ai.html

以上是关于量子CNN不存在梯度消失问题,物理学家已完成理论证明的主要内容,如果未能解决你的问题,请参考以下文章

[人工智能-深度学习-36]:卷积神经网络CNN - 简单地网络层数堆叠导致的问题分析(梯度消失梯度弥散梯度爆炸)与解决之道

深度学习解决局部极值和梯度消失问题方法简析(转载)

为啥要对卷积神经网络进行预训练

TensorFlow的梯度裁剪

深度学习梯度爆炸与梯度消失

机器学习/人工智能的笔试面试题目——CNN相关问题总结