基于时间序列的新冠疫情传播预测分析
摘 要:“新冠病毒”,全称新型冠状病毒,是一种近年来新出现的冠状病毒品种。其可怕的转播能力和繁殖能力在近年来已经展露无遗,其危害性更是在全世界有目共睹。因此我们希望从科学预测的角度来对此病毒的传播情况进行研究,进而通过对其以往传播情况的了解把握其将来的传播走向,以图控制其扩散范围及危害范围。从新冠疫情肆虐开始至今已超过一年,在时间跨度上尚较短,但是时间密度较大,这也与病毒的传播和繁殖速度有很大的关系。因此在这一层面上,采用时间序列分析的方法来对病毒过去的传播情况进行研究,并对其未来的传播走向进行预测,以达到控制病毒的危害能力,从而减少无辜百姓伤亡率的目的。最终为世界走向健康、和谐、幸福的梦想出一份力。
关键词:时间序列分析;ARIMA模型;指数平滑法;谱系聚类;人工神经网络.
- 研究背景
从2019年12月新冠病毒的发现开始,就注定了2020年将会是极不平静的一年。病毒刚被发现的时候,人们不清楚它的传播能力和繁殖能力,导致病毒的扩散范围越来越大,最终波及世界,全世界人民都陷入了恐慌。为了缓解这种恐慌,全世界人民联起手来,共同抗击疫情。人民从民间自发地组织起来捐助医疗物资,医生全心全意地救助病人,科研人员开始紧锣密鼓地研究病毒的生物特性,以求尽快研制出既适应人体又能抗击病毒的疫苗。
而我们也可以从另一个角度对抗击本次疫情出一把力。我们知道,在抗击传染病疫情的时候,有标本两面。捐助医疗物资、进行医疗救治是标,研究病毒生物特性是本。只有本被解决,抗击才算成功,否则就是“治标不治本”。而在本还不能彻底根除的时候,似乎“治标”是唯一手段,然而我们还可以站在标本之间考虑问题:利用统计学中时间序列分析的方法,对病毒的传播情况进行预测,从而得出病毒的传播走向,达到控制其危害范围的效果。
- 国内研究方法及成果
(一)自回归移动平均模型(ARIMA模型)
张文华[[1]]介绍了时间序列分析预测的各个过程及其在MATLAB中的实现,并提出在数据处理阶段对数据进行非线性变换,以提高残差序列的方差齐性。同时,笔者以河北省城镇居民家庭人均可支配收入为样本数据进行实证分析并建立ARIMA模型,然后用该模型对未来10年的数据变化进行预测。
翁榕星[[2]]等人基于2005—2020年深圳市淋病疫情监测数据,构建了自回归移动平均(ARIMA)模型以预测深圳市淋病报告发病率的时间趋势。方法采用R3.5.0软件建立ARIMA模型,包括模型识别、参数检验和诊断三个步骤。将时间序列分为训练集和验证集。对比模型的BIC值选择拟合最优的模型,并以平均绝对百分误差(MAPE)为评价标准。结果根据训练集得出最优模型为ARIMA(0,1,1)(2,1,1),IC=370.51,应用模型预测2020年6—11月深圳市淋病发病率,发现有周期性波动以及继续下降的趋势,与真实值的发病率趋势相符。该模型MAPE值为18.35%,2020年6—11月的真实值均在预测值的95%内。结论 ARIMA(0,1,1)(2,1,1)模型可很好地拟合周期波动和长期趋势,能够应用于预测深圳市淋病发病趋势。
