基于组合神经网络模型的新冠疫情传播预测分析
Posted 数据挖掘与开源生态
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了基于组合神经网络模型的新冠疫情传播预测分析相关的知识,希望对你有一定的参考价值。
摘 要:
在全球抗击新型冠状病毒肺炎(COVID-19)疫情的过程中,合理的疫情传播预测对于疫情防控有重要参考意义。为了对病毒传播进行合理预测,针对传统疫情传播预测模型存在的不足,提出一种组合式神经网络的疫情传播预测模型,并将其应用于湖北省 1 月 29 日-3 月 15 日每日新增确诊人数预测及湖北省每日累计确诊人数预测。预测结果分析显示,该神经网络预测模型预测结果可靠有效。模型性能分析结果表明,组合式神经网络预测模型平均相对误差(MRE)不超过 0.16,均方误差(MSE)不超过 0.1,均方根误差(RMSE)为 0.262 9,性能明显优于其它几种神经网络预测模型。基于武汉市与广东省疫情传播预测的实证结果显示模型具有较好的适用性及准确性。
引言:
2019 年 12 月以来,新型冠状病毒肺炎(COVID-19)疫情爆发,其传染性强、传播迅速。在全球抗击新冠肺炎的过程中,相关科研人员对疫情传播和发展趋势进行了大量研究,为疫情防控提供了重要的参考信息[1-2]。国内外学者针对疫情传播与发展趋势预测分析,构建的预测模型主要集中于动力学模型及统计学模型。动力学模型根据各要素之间的联系构建相关动力学微分方程,进而可模拟相关要素发展趋势,因此被广泛应用于疾病传播和分析,新型冠状病毒肺炎传播的动力学模型主要有SIR 模 型[3-6]、SEIR 模 型[7-10]、SEIHR 模 型[11]、SEQIR 模 型[12]等。如 Zareie 等[3]通过构建伊朗 COVID-19 疫情的SIR 模型,对伊朗 COVID-19 疫情传播进行有效预测;盛华雄等[4]在对疫情数据预处理的基础上,在控制阶段运用经SIR 模型与差分递推方法进行疫情传播分析和预测;魏永越等[8]基于改进的 SEIR 模型对新型冠状病毒肺炎疫情进行趋势预测;唐三一等[11]通过建立 SEIHR 模型对新型冠状病毒肺炎疫情进行预测,进而给出相关防控策略。统计学模型基于逻辑回归模型挖掘统计数据相关规律,进而用于疫情传播预测分析。Ahmed 等[13]利用 Logis⁃tic 模型对土耳其和伊拉克疫情规模进行预测,预测结果验证了模型有效性;Li 等[14]基于官方疫情数据,将高斯理论用于研究 COVID-19 传播过程;盛华雄等[4]在对疫情数据预处理的基础上,在自由传播阶段运用 Logistic 模型,比较分析提前 5 天或延后 5 天的疫情数据与实测数据,说明及时采取防疫措施的重要性。除此之外,多层感知机模型[15]、人工智能模型[16-17]、社会现象学模型[18-19]等也被相关学者应用于国外疫情传播预测分析。尽管通过上述预测模型可得出有效的疫情传播预测结果,然而无论是动力学模型还是统计学模型,均仅通过设置好的预测参数进行疫情预测,当参数过多时将面临求解困难、复杂的问题,且未考虑疑似人群在疫情传播中的影响;而相关人工智能模型(如多层感知机)容易陷入局部极小点问题,且国内与疫情传播相关的智能预测模型研究较少。因此,本文提出一种组合式神经网络的疫情传播预测模型,将粒子群用于神经网络训练过程,并将其应用于湖北省 1 月 29 日-3 月 15 日的疫情传播预测。
1、组合神经网络预测模型
1.1 基本假设与数据说明
为对湖北省疫情传播作出合理的预测分析,提出 5 项基本假设:①国家卫健委提供的疫情数据真实可靠;②除确诊人数、死亡人数对疫情传播有直接影响外,疑似人群及重症人数对疫情传播也存在相关联系;③治愈人群可能产生再次感染,即治愈人数与疫情传播依旧存在联系;④只用前 1 天的相关数据预测后 1 天的疫情新增确诊量;⑤考虑到 2 月 12 号推出用于诊断疫情的相关试剂,湖北省新增确诊人数急剧上升至 14 840 例,因此该日湖北省新增确诊人数采用文献[4]中推理出的数据(新增确诊人数 2051 例)替代。其中,t 表示时间序列(1 表示 1 月 29 号,以此类推),I表示每日新增确诊人数,N 表示每日累计确诊人数,R 表示每日治愈人数,D 表示每日死亡人数,S 表示每日疑似人数,Z 表示每日重症人数。本文数据来源为国家卫健委提供的每日疫情数据,网址为 http://www.nhc.gov.cn/xcs/xxgz⁃bd/gzbd_index.shtml。选取湖北省 1 月 28 日-3 月 15 日的疫情数据,数据内容包含上述数据内容。1.2 模型介绍神经网络模型具有自学习能力、自适应能力、非线性映射能力及容错率高等优点,应用广泛,且可根据输入输出映射进行自我调整,因此可被用于疫情传播预测分析。考虑到不同的激活函数及神经网络结构对神经网络性能及预测精度有重要影响,因此本文构建 4 种不同的神经网络模型对湖北省疫情每日新增确诊人数进行预测,并将 4种神经网络预测结果作为传统多层感知机的输入进行拟合预测。考虑到传统神经网络在权值训练过程中容易陷入局部极小点且收敛较慢,因此将粒子群算法用于各神经网络权重训练,其中各神经网络参数如表 1 所示。
其中 Sigmoid 函数为
tanh 函数为
由上述得到各神经网络架构,如 图 1 所示。
考虑到传统神经网络在权值训练过程中容易陷入局部极小点且收敛较慢,将粒子群算法用于各神经网络权重训练,训练过程为:①初始化粒子群基本参数,最大迭代次数为 1 000 次,粒子为各神经网络连接权值;②将粒子代入各神经网络,将各神经网络输出与目标输出的残差作为粒子群算法的目标函数;③更新粒子,并计算粒子目标值,并根据目标值大小进行更新最优粒子和最优值;④判断是否满足停止条件,若满足则输入最佳粒子,若不满足返回步骤 2。
2 、疫情传播预测分析
2.1 湖北省每日新增确诊量预测
选取湖北省 1 月 28 日-3 月 15 日疫情数据进行疫情传播预测分析,数据信息包括:每日疫情新增确诊人数 I、每日治愈人数 R、每日死亡人数 D、每日新增疑似人数 S、每日重症人数 Z 以及每日累计确诊人数 N(数据来源国家卫健委)。将前 1 天的疫情数据作为神经网络输入,后 1天疫情新增确诊人数作为神经网络输出,进行湖北省每日新增确诊量预测分析,各神经网络预测结果如表 2 所示, 其中时间 1 表示 1 月 29 日。
其中 2 月 12 号(第 15 时间序列)新增确诊量用文献[4]数据替代,最后时间序列的多个神经网络预测结果为负值,故而上进为 0,根据表 2 所得的新增确诊人数预测结果得到湖北省每日新增确诊人数预测,如图 2 所示。
由图 2 可知,以上 5 种神经网络对于湖北省每日新增确诊人数的预测与实际趋势均较为符合,可对湖北省每日新增确诊人数进行有效的预测分析,但是在某些时间节点上仍存在差异,如第 20 时间节点上神经网络 2(双曲三层神经网络)及神经网络 3(四层神经网络)的预测结果与实际新增确诊人数存在较大差异。同时,在 5 种神经网络预测模型中,神经网络 1(三层神经网络)及组合预测模型对于湖北省每日新增确诊人数预测精度较高。
2.2 湖北省每日累计确诊量预测
合理有效地预测分析湖北省每日累计确诊量可以为疫情拐点的出现及疫情的有效控制提供参考。由于 Nt = Nt - 1 + It - Rt - Dt(第 t 时刻累计确诊量由第 t-1 时刻的累计确诊量、第 t 时刻新增确诊量、第 t 时刻新增治愈量以及第 t 时刻新增死亡量递推而出),因此基于上述湖北省每日新增确诊量预测分析,可以进行湖北省每日累计确诊量预测分析,分析结果如表 3 所示。根据表 3 所得的湖北省每日累计确诊量预测结果,得到湖北省每日累计确诊量预测趋势,如图 3 所示。
由图 3 可知,各神经网络预测模型对于湖北省每日累计确诊量预测结果均较为理想,其预测趋势与实际趋势贴合较近,能够有效反映湖北省每日累计确诊量。从图 3 可以看出,湖北疫情每日累计确诊量在第 23 时刻(2 月 19号)左右出现下降趋势,即意味着湖北省疫情拐点出现,同时在第 16 时刻(2 月 12 号)左右,湖北疫情每日累计确诊量急剧增加,由于在 2 月 12 号左右推出用于诊断疫情的相关试剂,湖北省新增确诊人数急剧上升。
3、 预测结果分析
3.1 预测误差分析
由湖北省每日累计确诊量预测结果(见表 2)可以得到各预测模型在各时刻下与实际新增确诊量的偏差,进而得到各模型在各时刻下预测偏差分布,如图 4 所示。
由图 3 可知随着时间序列 t 的推移,各神经网络对于湖北省每日新增确诊量预测偏差逐渐减少趋近于 0,表明各神经网络对于湖北省每日新增确诊量预测结果有效。为检验各模型预测结果可靠性,各神经网络对于湖北省每日新增确诊量预测偏差均值及标准差如表 4 所示。
由表 4 可知,神经网络 2 与组合式神经网络与其它 3种神经网络相比,偏差均值更低,然而从偏差标准差的角度来看,组合式神经网络预测偏差标准差为 84.436 3,较其它 4 种神经网络预测结果更加可靠。
3.2 模型性能分析
模型性能评估是检验模型能否用于疫情传播预测的直观指标,而平均相对误差(MRE)、均方误差(MSE)以及均方根误差(RMSE)是评估神经网络的重要指标,因此本文利用这 3 种指标对各神经网络预测模型进行评估,其中各指标计算公式如式(1)—式(3)所示。
其中 yi 表示第 i 时刻的实际量,yi 表示第 i 时刻的预测量,M 表示预测样本量。根据式(1)—式(3)分别求得各神经网络预测模型在湖北省每日新增确诊量预测中的 MRE、MSE、RMSE 及在湖北省每日累计确诊量预测中的 MRE 与 MSE,如表 5 所 示。
根据表 5 各神经网络预测模型指标得分,构建各神经网络预测模型性能雷达图,如图 5 所示。通过对比各神经网络预测模型评价指标得分可知,神经网络预测模型对于湖北省疫情传播预测精度较好(新增确诊人数预测 MRE均小于 0.3,累计确诊人数预测 MRE 均小于 0.02);根据MRE 评价指标来看,组合神经网络预测模型及神经网络 3 (4 层神经网络预测模型)较之其它 3 种神经网络预测模型预测精度更高;根据 MSE 评价指标来看,组合神经网络预测模型性能最优,神经网络 2(双曲 3 层神经网络预测模型)与神经网络 3(四层神经网络预测模型)预测性能相当;根据 RMSE 评级指标可以看出组合神经网络预测模型性能优于其它 4 种神经网络预测模型,预测结果精度更高。综合各个评价指标来看,根据各神经网络在性能雷达图上所属面积可以看出,组合神经网络预测模型性能优于其它4 种神经网络模型,其次是神经网络 3(4 层神经网络预测模型)、神经网络 2(双曲 3 层神经网络预测模型)、神经网络 4(双曲 4 层神经网络预测模型)以及神经网络 1(3 层神经网络预测模型)。
3.3 模型适应性分析
为验证组合式神经网络适用性及准确性,采用湖北省武汉市 2 月 12 日-3 月 12 日疫情数据及广东省 2 月 1 日- 2 月 22 日疫情数据用于实验验证,验证结果如图 6 所示。
由实验验证结果可以看出,组合式神经网络预测模型能较好地预测武汉市及广东省疫情传播趋势,当训练数据充分时,组合式神经网络预测模型具有较好的适用性。从准确性角度出发,组合式神经网络预测模型对于武汉市与广东省新增确诊人数预测的 MRE 均小于 20%,其中武汉市新增确诊人数预测 MRE 为 6.01%,广东省新增确诊人数预测 MRE 为 17.25%;对于武汉市以及广东省累计确诊人数预测的 MRE 均小于 3%,其中武汉市累计确诊人数预测MRE 为 2.09%,广东省累计确诊人数预测 MRE 为 0.65%。由此可见,在数据集充分的情况下,组合式神经网络预测模型有着较高的预测精度。
4 、结语
针对传统疫情传播预测方法存在的不足,本文提出了一种基于组合式神经网络的疫情传播预测模型,并将其应用于湖北省每日新增确诊人数预测以及湖北省每日累计确诊人数预测。预测结果显示,神经网络预测模型预测结果可靠有效。模型性能分析结果表明,组合式神经网络预测模型性能明显优于其它 4 种神经网络预测模型,预测性能更佳。武汉市与广东省数据实证结果表明,组合式神经网络预测模型适应性较强、准确性较高。但是,神经网络优化仍依赖于智能优化算法权值优化。在未来研究中,一方面需加强智能优化算法与神经网络算法的结合,另一方面将积极探索合适的方法对神经网络进行结构优化,提升其实际应用性能。
以上是关于基于组合神经网络模型的新冠疫情传播预测分析的主要内容,如果未能解决你的问题,请参考以下文章
拐点何时出现?这是北大面向新冠疫情的数据可视化分析与模拟预测