基于vmd-凯发国际一触即发

基于vmd-ssa-bilstm的空气质量预测模型
air quality prediction based on vmd-ssa-biltsm model
doi: , , html, ,    国家自然科学基金支持
作者: 陈榴娜, 刘媛华:上海理工大学管理学院,上海
关键词: ;;;;;;;;;
摘要: 随着城市化现代化的发展,空气污染日益严重。近年来,为了提高空气质量预测的准确度,空气质量预测模型层出不穷。本文提出了vmd-ssa-bilstm组合模型来预测空气质量指数。首先,利用变分模态分解(vmd)方法将不稳定的空气质量时间序列数据分解成不同的模态。然后,利用麻雀搜索算法(ssa)对双向长短期记忆神经网络(bilstm)模型的参数进行寻优,进而输出空气质量预测的结果。最后,利用上海市的空气质量相关数据对模型进行验证。结果表明,vmd-ssa-bilstm模型比单一的bilstm模型和vmd-bilstm模型具有更小的误差,提高了空气质量预测的准确性,精度提升显著,具有良好的应用前景。
abstract: with the development of urbanization modernization, air pollution is becoming more and more serious. in recent years, in order to improve the accuracy of air quality prediction, air quality prediction models have emerged in an endless stream. this paper proposes a vmd-ssa-bilstm combined model to predict air quality index. firstly, the vmd method is used to decompose the unstable time series data of air quality into different modes. then, the sparrow search algorithm is used to optimize the parameters of the model, and then the results of air quality prediction are output. finally, the air quality related data of shanghai are used to verify this model. the results show that the vmd-ssa-bilstm model has smaller errors than the single bilstm model and the vmd-bilstm model, and improves the accuracy of air quality prediction. the accuracy improvement is significant and has good application prospects.
文章引用:陈榴娜, 刘媛华. 基于vmd-ssa-bilstm的空气质量预测模型[j]. 建模与仿真, 2024, 13(6): 5781-5790.

1. 引言

空气污染是指人类活动或者自然过程把有害的大气污染物排放到空气中,对生态系统和人体身体健康造成破坏和危害的一种社会现象[1]。近年来,工业和城市的发展使得空气污染已经成为了全球性问题[2]。为了改善大气污染状况,政府采取了许多措施,积极开展了多项有关空气污染的预防和治理的工作[3]

目前,实现空气质量的精确预测是一个重要的研究方向。空气质量指数(aqi)反映了空气污染的动态变化趋势,为实施缓解空气污染的具体措施提供数据支持[4]。然而,由于aqi具有随机性和非平稳性,往往导致预测精度低、稳定性差,并且由于大气是一个非常复杂的动态系统,其变化趋势容易受到空气中污染物浓度、多种气象因素等因素的影响,很难对其进行建模[5]。而空气质量预测模型是预测空气质量的有效方法,这些模型建立在科学的理论和假设基础上,具有广阔的应用前景,并且空气质量预测技术对大气污染物在给定时间空间范围内的浓度进行科学预测,以支撑开展工程减排、结构减排和管理减排等措施,达到降低大气污染物浓度的目的[6]

传统的空气质量预测模型arima、arma模型等,它们对于aqi这类非线性不平稳的指标很难精确预测。随着人工神经网络的蓬勃发展,越来越多的空气质量预测模型采用神经网络算法,在时间序列预测方面用得最多的是bp神经网络和长短期记忆神经网络(lstm)。2005年,graves和schmidhuber [7]提出了一种双向lstm (bidirectional lstm, blstm)模型;2019年,有文献[8]比较了lstm和双向lstm在时间序列预测方面的效果,事实证明双向lstm效果更好。此后,大量基于双向lstm的预测模型出现了。du等人[9]提出一个基于一维cnns和双向lstm的混合模型来预测pm2.5浓度。dun等人[10]先使用k-means聚类算法对历史气象数据进行分类,再利用双向lstm探究数据之间的关系,最后通过全连接神经网络进行预测。luo zhang等人[11]提出了结合经验模态分解(emd)和双向lstm的空气质量预测模型。有文献[12]提出了一种改进的cnn-bilstm-attention空气质量预测模型用于预测未来一小时的空气质量。刘英等人[13]提出了一种基于鲸鱼优化算法的双向lstm模型。zhendong zhang等人[14]构建了变分模态分解(vmd)和双向lstm结合的混合模型,对我国城市的pm2.5变化进行预测。

上述与机器学习方法结合的bilstm模型的优势在于深度学习算法模型可以应对时间序列中的大规模数据,可以利用大量数据通过分布式学习等技术训练模型,提高模型的预测能力,并且能够学习数据之间的非线性关系。同时,深度学习算法可以自动学习特征,使得算法可以自动发现数据中的规律和模式。但缺点是其可解释性较差,不易令人信服,且其计算复杂度较高,需要较大的计算资源和时间。上述与模态分解和聚类结合的bilstm模型可以很好地处理原始数据,但不能保证模型的最优参数,因此本文提出先用vmd将空气质量的不平稳时间序列数据分解成不同的模态来减轻这些影响因素。尽管神经网络算法预测效果良好,但是在预测精度方面仍有较大的提升空间,为了进一步提高预测的精确度,本文提出麻雀搜索算法(ssa)寻找bilstm模型的最优参数的方法,最后用上海市的空气质量相关数据来验证本文的模型。

2. 基本原理

2.1. 变分模态分解(vmd)

变分模态分解是一种信号分解方法[15],vmd可以将信号分解成若干个本征模态函数(imf),然后再重构成原始信号,可用于处理不平稳的时间序列。vmd分解的具体过程如下:

a) 初始化 { u k 1 } { w k 1 } λ k 1 和n = 0;

b) n = n 1,进入循环;

c) 依据uk和wk的更新公式(1)和公式(2)进行更新,直至分解个数达到k时停止内循环;

u k n 1 ( w ) f( w ) i<k u i n 1 ( w ) i>k u i n ( w ) λ n ( w ) 2 1 2α ( w w k n ) 2 (1)

w k n 1 0 w | u k n 1 ( w ) | 2 dw 0 | u k n 1 ( w ) | 2 dw (2)

d) 依据λ的更新公式(3)更新λ

λ n 1 ( w ) λ n ( w ) τ( f( w ) k u k n 1 ( w ) ) (3)

e) 给定精度ε,若满足停止条件(4),就停止循环,否则进入步骤(b)继续循环。

k u k n 1 u k n 2 2 u k n 2 2 <ε (4)

2.2. 麻雀搜索算法(ssa)

麻雀搜索算法[16]是2019年提出来的一种群智能优化算法。麻雀种群可分为发现者和跟随者,发现者的能源储备高且能够觅食,跟随者则相反,能量储备是用适应度值(fitness value)表示的;一旦麻雀发现了捕食者,即报警值大于安全值时,麻雀会到别处觅食;发现者和跟随者所占整个种群数量的比重不变。发现者、跟随者、警戒者的位置更新公式如下:

x i,j t 1 ={ x i,j t exp( i αite r max ), r 2 <st x i,j t ql, r 2 st (5)

x i,j t 1 ={ qexp( x worst x i,j t i 2 ),i> n 2 x p t 1 | x i,j t x p t 1 | a l,i n 2 (6)

x i,j t 1 ={ x best t β| x i,j t x best t |, f i > f g x i,j t k( | x i,j t x worst t | ( f i f w ) ε ), f i = f g   (7)

2.3. 双向长短期记忆神经网络(bilstm)

lstm是一种特殊的循环神经网络(rnn) [17]。双向lstm构建两层lstm,能使前后信息充分利用。如图1为bilstm的网络结构示意图。其中,xn为输入层,yn为输出层,中间有两层隐藏层,分为前向和后向,是由lstm堆叠起来的。

figure 1. diagram of bilstm

1. bilstm示意图

3. 空气质量预测模型构建

3.1. 模型构建

由于变分模态函数(vmd)可以很好的分解空气质量时间序列数据,可以将低频信号从污染潜在趋势的高频信号中分离出来,会使准确度大大提高。麻雀搜索算法(ssa)可以很好地搜寻到bilstm的最优参数,单独的bilstm模型对观测值的预测较差,只能捕捉到主要的趋势,会丢失额外的和重要的细节。所以本文建立了vmd-ssa组合优化bilstm模型的空气质量预测模型。下面是具体的实施步骤。

步骤1:bilstm模型的寻优:根据麻雀搜索算法(ssa)对bilstm模型的三个参数(隐藏单元数目、最大训练周期和初始学习率)进行寻优,找出最优的神经网络超参数。

步骤2:原始数据处理:首先对空气质量数据进行归一化操作,然后用变分模态分解(vmd)将不平稳非线性的该时间序列数据分解成不同的5个本征模态函数(imf),即具有不同频率的信号。

步骤3:构建组合模型:将分解成的5个子序列输入到已经寻优过的5个相同的bilstm模型中进行训练,再将各预测结果叠加。

步骤4:模型验证:将测试集输入到该模型中进行验证,进行数据反归一化得到数据预测结果和误差指标。

本文的具体算法流程图如图2所示,左边部分是vmd分解以及组合模型,右边部分是ssa寻找bilstm的最优参数。

3.2. 评价指标

为了量化实验结果,实验围绕根均方差(rmse),平均绝对误差(mae)和平均相对百分误差(mape)三个指标进行,如公式(8)~(10)所示。其中rmse、mae和mape的值越小,说明预测模型的性能越好[18]

figure 2. flowchart of model

2. 模型流程图

rmse= 1 n i=1 n ( y i y i * ) 2 (8)

mae= 1 n i=1 n | y i y i * | (9)

mape= 1 n i=1 n | y i y i * | y i (10)

4. 空气质量预测

4.1. 数据来源及预处理

本文的污染物数据来自中国空气质量在线监测分析平台,包括主要的六大污染物,即pm2.5,pm10,so2,no2,co和o3。本文的气象数据来源于慧聚数据,包括日总降水量(mm)、日风速(m/s)、日能见度(km)、日温度(℃)。本文选取从2021年4月1日到2023年12月16日的988条数据,经过统计软件分析,pm2.5,o3,co会对aqi产生显著的正向影响关系,日能见度(km)和日温度(℃)特征的权重最高,对模型构建起着关键作用。因此选取pm2.5,co,o3,日能见度(km),日温度(℃),aqi六个属性建立模型。如图3为对aqi的数据进行可视化的图表,可以看到2023年4月12日污染最严重,2021年9月13日空气质量状况最好,大致趋势呈“w”型。

对数据进行归一化处理,可以提高损失函数的收敛速度,防止梯度爆炸,提高计算精度。本文的空气质量原始数据首先需要采用min-max标准化将数据标准化到(0, 1)后进行归一化处理,预先处理的这一步是为了清洗数据以及消除其他因素对数据的影响,该函数如公式(11)所示。归一化处理后,将数据集进行训练集和测试集的划分,按时间顺序,分别为前70%和后30%。

x = ( x x min )( y max y min ) x max x min y min (11)

figure 3. visualization of aqi

3. aqi可视化

4.2. 仿真分析

本文的仿真实验是在matlab r2021b平台上进行的,构造vmd-ssa-bilstm模型。在这个模型中,首先对麻雀搜索算法(ssa)进行参数设置,包括种群数量、最大迭代次数、上下边界,设置预警值为0.6,发现者的比例为70%,意识到危险的麻雀比例为20%,剩下的为跟随者。然后对ssa进行最佳适应度和最佳迭代次数的寻优,绘制成进化曲线,训练集中麻雀搜索算法(ssa)不同进化次数所形成的不同的均方根误差(rmse)如图4所示。从图中可以看出,这里的均方根误差(rmse)是作为种群的最佳适应度的,而且种群在进化次数为2时有一个明显的拐点,此后变化较为平稳。接着ssa结合bilstm模型,找出该模型的最优隐藏单元数目(216)、最优最大训练周期(287)和最优初始学习率(0.007)这三个最优参数。

然后是先对vmd进行参数设置,包括适度的带宽约束、无噪声容限、无直流、分解的模态数目(5个),接着对于预处理之后的序列数据进行变分模态分解,其分解后的序列如图5所示。从图中可以看出,对所选数据区间的该时间序列进行变分模态分解,形成了5个不同状态的本征模态函数(imf),图的最上面一个是不规则的原始信号,它被分解成了5个高低不同频率的近似规则的信号。接着将每个子序列都输入到已经寻找好最优参数的bilstm模型中,最后,将各子序列的预测结果累加得到最终的预测结果。

figure 4. evolution curve chart

4. 进化曲线图

figure 5. diagram of decomposed signal

5. 分解信号图

4.3. 模型对比

为了验证本文提出的vmd-ssa-bilstm模型在该数据集上预测性能的优越性。本文选取了一种单神经网络模型(bilstm)、一种组合预测模型(vmd-bilstm),与本文提出的目标模型进行对比。bilstm模型能够将时间序列的前后信息联系起来,vmd-bilstm模型是先将数据集用vmd进行分解,再输入到bilstm模型中。本文分别将bilstm,vmd-bilstm,vmd-ssa-bilstm模型在测试集和训练集上的误差评价指标进行了记录,如表1所示。为了更形象化的对比验证本文模型的合理性,对模型的评价指标进行可视化展示,如图6图7所示。根据表1可以观察到,vmd-bilstm模型对测试集预测的rmse,mae和mape分别为8.08、6和0.09,与bilstm模型的预测性能相比,降低了大约50%的误差,原因在于vmd从时间序列中识别并提取了内部特征和特征。而本文的vmd-ssa-bilstm模型对测试集预测的rmse,mae和mape分别为3.33、2.43和0.03,与vmd-bilstm模型相比,其预测误差也降低了50%左右。因此,三个模型的误差对比中得出结论,本文的模型显著降低了预测误差。从图6可以直观的看出,尽管vmd-ssa-bilstm模型在训练集上的误差比测试集上的要低一点,但是总体对比三个预测模型,总体是误差降低的趋势。从图7可以看出,vmd-ssa-bilstm模型的曲线比其他两个模型要更加靠近零值。如图8所示为三种模型预测结果对比图,从中可以看出,vmd-ssa-bilstm模型是最接近真实值的。

figure 6. comparison of different evaluation indicators

6. 不同评价指标对比图

figure 7. comparison of prediction errors

7. 预测误差对比图

figure 8. comparison of prediction results

8. 预测结果对比图

table 1. evaluation index of different models

1. 不同模型评价指标

评价指标

vmd-ssa-bilstm

vmd-bilstm

bilstm

训练集

测试集

训练集

测试集

训练集

测试集

rmse

2.2647

3.3347

6.0489

8.0793

15.5576

17.9872

mae

1.7532

2.4299

4.5685

6.0001

12.3884

13.767

mape

2.6516%

3.6219%

7.2922%

8.9072%

18.8029%

20.0883%

5. 结论与展望

本研究采用vmd-ssa-bilstm模型进行空气质量时间序列预测,通过使用上海市的空气质量历史数据对所提模型进行验证。该模型结合了vmd、ssa和bilstm三种不同的技术,有效地处理了空气质量的时间序列数据。实验结果表明,将vmd-ssa-bilstm模型用于空气质量时间序列预测,能够显著提高预测的准确性和拟合能力。与传统方法相比,该模型可以更好地预测空气质量时间序列数据,具有更好的可解释性和可视化,可以帮助决策者和管理者更好地了解预测结果和趋势。此外,采用vmd-ssa-bilstm模型具有良好的可扩展性和适用性,可以应用于不同的时间序列预测系统,为碳中和工作的开展提供有力支持,为空气质量时序预测提供了更加可靠和高效的凯发国际一触即发的解决方案。

虽然本文的vmd-ssa-bilstm模型在序列数据处理中取得了较好的效果,但仍然存在一些不足:该模型结合了3种不同的技术,较为复杂,需要更多的计算资源和训练时间。此外,本文的研究没有考虑不同影响因素之间的关系,因此在未来的研究中,可以探索如何结合不同影响因素之间的相关性进行预测。虽然本文提出的模型在一定程度上提高了预测精度,但是空气质量的影响因素中有很大一部分是人类生产生活中的有害气体排放,而且还要考虑时间空间等的因素,所以在后续的研究工作中,应更加全面地考虑其他影响因素,进一步提高预测精度。

基金项目

国家自然科学基金项目,编号为72071130。

参考文献

[1] 黄顺祥. 大气污染与防治的过去、现在及未来[j]. 科学通报, 2018, 63(10): 895-919.
[2] 郝吉明, 李欢欢. 中国大气污染防治进程与展望[j]. 世界环境, 2014(1): 58-61.
[3] 王文兴, 柴发合, 任阵海, 等. 新中国成立70年来我国大气污染防治历程、成就与经验[j]. 环境科学研究, 2019, 32(10): 1621-1635.
[4] zhang, y., bocquet, m., mallet, v., seigneur, c. and baklanov, a. (2012) real-time air quality forecasting, part i: history, techniques, and current status. atmospheric environment, 60, 632-655.
[5] zhang, y., bocquet, m., mallet, v., seigneur, c. and baklanov, a. (2012) real-time air quality forecasting, part ii: state of the science, current research needs, and future prospects. atmospheric environment, 60, 656-676.
[6] 卢亚灵, 李勃, 范朝阳, 等. 空气质量预测模拟技术演变与发展研究[j]. 中国环境管理, 2021, 13(4): 84-92.
[7] graves, a. and schmidhuber, j. (2005) framewise phoneme classification with bidirectional lstm and other neural network architectures. neural networks, 18, 602-610.
[8] siami-namini, s., tavakoli, n. and namin, a.s. (2019) the performance of lstm and bilstm in forecasting time series. 2019 ieee international conference on big data (big data), los angeles, 9-12 december 2019, 3285-3292.
[9] du, s., li, t., yang, y. and horng, s. (2021) deep air quality forecasting using hybrid deep learning framework. ieee transactions on knowledge and data engineering, 33, 2412-2424.
[10] ao, d., cui, z. and gu, d. (2019) hybrid model of air quality prediction using k-means clustering and deep neural network. 2019 chinese control conference (ccc), guangzhou, 27-30 july 2019, 8416-8421.
[11] zhang, l., liu, p., zhao, l., wang, g., zhang, w. and liu, j. (2021) air quality predictions with a semi-supervised bidirectional lstm neural network. atmospheric pollution research, 12, 328-339.
[12] 李嘉政. 基于cnn-bilstm-attention的空气质量预测模型研究[d]: [硕士学位论文]. 石家庄: 河北科技大学, 2021.
[13] 刘英, 裴莉莉, 郝雪丽. 基于woa-bilstm模型的空气质量指数预测[j]. 计算机系统应用, 2022, 31(10): 389-396.
[14] zhang, z., zeng, y. and yan, k. (2021) a hybrid deep learning technology for pm2.5 air quality forecasting. environmental science and pollution research, 28, 39409-39422.
[15] dragomiretskiy, k. and zosso, d. (2014) variational mode decomposition. ieee transactions on signal processing, 62, 531-544.
[16] xue, j. and shen, b. (2020) a novel swarm intelligence optimization approach: sparrow search algorithm. systems science & control engineering, 8, 22-34.
[17] hochreiter, s. and schmidhuber, j. (1997) long short-term memory. neural computation, 9, 1735-1780.
[18] 杜沅昊, 刘媛华. 混合遗传蚁群算法优化bp神经网络预测空气质量[j]. 计算机系统应用, 2023, 32(4): 223-230.
为你推荐
凯发国际一触即发的友情链接
网站地图