Comparison of the accuracy of spatial prediction for heavy metals in regional soils based on machine learning models

JIN Zhao; LV Jianshu

doi:10.11821/dlyj020210528

GEOGRAPHICAL RESEARCH >

2022 , Vol. 41 >Issue 6: 1731 - 1747

DOI: https://doi.org/10.11821/dlyj020210528

Articles

Comparison of the accuracy of spatial prediction for heavy metals in regional soils based on machine learning models

JIN Zhao ,
LV Jianshu

Expand

College of Geography and Environment, Shandong Normal University, Jinan 250358, China

Received date: 2021-06-21

Accepted date: 2021-09-13

Online published: 2022-08-10

Fold

Abstract

In order to identify the spatial variation of regional soil heavy metals and clarify the relevant influencing factors, this work built multiple linear regression (MLR), elastic network regression (ENR), random forest (RF), stochastic gradient boosting (SGB), ensembled model based on stacking, Back-Propagation artificial neural network (BP-ANN), neural network ensemble based on model averaging (avNNet), support vector machine with linear kernel (SVM-L), and support vector machine with radial basis function kernel (SVM-R); and applied these nine machine learning models to a dataset consisting of soil Cd, Cu, Hg, Pb, Zn concentrations and environmental auxiliary variables in the central part of Shandong Province. Finally, the spatial prediction accuracy derived from nine models was compared. It was confirmed that RF outperformed other models, with R² values among 0.263 and 0.448, while MAE and RMSE below 8.408 and 10.636, respectively, and P/O approximating to 1. Thus, RF can be regarded as the optimal model for spatial prediction of soil heavy metals. Besides, SVM-R showed ideal predictive accuracy, and can serve as the alternative model. The accuracy for other seven models were obviously inferior to RF and SVM-R. Soil heavy metals in the study area showed similar spatial patterns with concentrations following the decreasing trend from northeast to southwest according to RF. The regions of high heavy metals contents were located in northeastern, northern, and southern parts, coherent with the industrial sites and road networks, indicating that human activities are a significant influencing factor for spatial distributions of heavy metals in soils. This work can provide an important reference for regional soil pollution management.

Key words： machine learning; heavy metals in soils; spatial prediction; influencing factors

Cite this article

JIN Zhao , LV Jianshu . Comparison of the accuracy of spatial prediction for heavy metals in regional soils based on machine learning models[J]. GEOGRAPHICAL RESEARCH, 2022 , 41(6) : 1731 -1747 . DOI: 10.11821/dlyj020210528

1 引言

土壤是生态系统中的重要组成部分,是联系无机界和有机界的枢纽。然而,在经济社会迅速发展的背景下,土壤重金属污染日益严重,成为备受关注的全球性问题^[1,2]。不同于有机污染物,重金属具有不可降解性,易在土壤中大量富集,导致土壤受到持续性污染^[3];且土壤重金属能够传输到大气圈、水圈及生物圈,造成大尺度污染^[4]。另一方面,重金属具有生物毒性,能够通过食物链危害人体健康;过量的重金属摄入可对人体呼吸、消化、神经及循环系统造成一定程度的破坏^[5]。土壤重金属含量受到自然背景和人类活动的双重影响。土壤重金属背景含量受控于成土母质;同时,在工业化和城市化进程中,高强度人为干扰（如化石燃料燃烧、工业生产、交通排放、化肥和农药的施用）愈发成为促使土壤重金属强烈富集的重要因素^[6]。不同自然和人为因素的组合导致了区域土壤重金属复杂的空间异质性特征。因此,开展土壤重金属的空间预测,揭示影响其空间分异规律的主要因素,对区域土壤调查及污染管控工作具有重要的科学参考价值。

传统土壤污染调查依赖于大量土壤采样,工作成本较高、效率较低,同时忽视了土壤性质的空间自相关性,无法反映土壤污染的局部变异特征^[7]1-2。地统计模型通过构建空间中两点的变异函数以描述其空间自相关性,进而利用克里格或随机模拟预测未知点的数值,在土壤重金属空间预测中得到了广泛应用。克里格插值具有平滑效应,无法识别土壤重金属的局部异常值;随机模拟能够产生多个等概率的实现,避免了平滑效应,提高了空间预测精度^[8]。然而,地统计方法是对土壤重金属直接的插值或模拟,无法刻画环境辅助变量对土壤重金属空间分异的影响。机器学习被视为人工智能的一个子集,兴起于20世纪90年代,广泛应用于数据挖掘和模式识别领域^[9,10]。机器学习能够实现土壤重金属数据及相关环境辅助变量的有效整合,构建线性或非线性的模型进行土壤重金属的空间预测。同时,随着遥感技术迅猛发展,环境辅助变量的可获得性得到了巨大提升,为机器学习模型在土壤空间预测中的应用提供了必要前提。

多元线性回归（MLR）及弹性网络回归（ENR）等线性模型常被用作土壤重金属空间预测的基础模型,其稳定性和可靠性在多项研究中得以证实^[11⇓-13]。为刻画变量之间复杂的层次化关系,非线性机器学习模型被提出,并表现出比简单线性模型更高的预测性能^[14]。集成学习通过整合多个弱学习器的预测结果,形成一个精确度更高的强学习器,主要包括bagging、boosting和stacking等常用的集成算法^[15,16]。由Breiman提出的随机森林（RF）^[17]和由Friedman提出的随机梯度提升（SGB）^[18]分别是bagging和boosting的代表性模型;相比于单一的决策树模型,RF和SGB能够有效地抗拒过拟合,进而提高预测精度。支持向量机（SVM）能够借助核方法,将非线性不可分数据投影到高维空间中,转化为线性可分数据,通过支持向量寻找最大间隔超平面以进行预测^[19]。人工神经网络（ANN）的概念起源于由McCulloch和Pitts创建的神经网络计算模型^[20],旨在通过模拟生物神经系统的功能进行数据处理。ANN由输入层、输出层及隐藏层的若干神经元组成,各层神经元通过权值相连接;在处理大量样本数据方面比其他机器学习算法更具优势。

本研究构建了MLR、ENR、RF、SGB、堆叠（stacking）集成模型、反向传播神经网络（BP-ANN）、基于模型平均的神经网络集成（avNNet）、线性核支持向量机（SVM-L）及高斯核支持向量机（SVM-R）共九种经典机器学习模型,利用山东省中部区域1156个表层土壤样品中Cd、Cu、Hg、Pb及Zn的含量数据,按照7:3划分训练集与验证集,基于相关环境辅助变量开展区域土壤重金属的空间预测,探讨机器学习模型的精确性与适用性,遴选最优模型;在此基础上,揭示研究区土壤重金属的空间分布特征及其影响因子。

2 研究方法与数据来源

2.1 土壤重金属与环境辅助变量数据集

研究区位于山东省中部（图1a）,包括济南市莱芜区和钢城区全境,以及济南市历城区和章丘区,泰安市岱岳区和新泰市,淄博市博山区、淄川区、沂源县的部分区域（图2a）。研究区是山东省重要的工农业基地,有机械、钢铁、金属加工及建材等多种工业门类,以生姜、山楂和白花丹参等种植而闻名。在卫星影像数据及实地调查的基础上,获取研究区金属加工工业、机械工业、钢铁工业、建材工业等工厂、道路以及居民点的空间位置（图2b）,并计算采样点到各类工厂、道路及居民点的距离。研究区的土地利用数据从中国科学院资源环境科学与数据中心（http://www.resdc.cn）获取,分为耕地、林地、草地、水域、建设用地及未利用地六类（图2c）。栅格图层统一重采样至100 m分辨率。

显示原图|下载原图ZIP|生成PPT

图1 研究区及土壤采样点地理位置

注：图a基于国家自然资源部标准地图服务系统的标准地图（审图号：GS(2020)4621号）绘制,底图无修改。

Fig. 1 Location of the study area with soil sampling sites

显示原图|下载原图ZIP|生成PPT

图2 研究区概况

注：图a基于山东省自然资源厅标准地图服务系统的标准地图（审图号：鲁GS(2020)019号）绘制,底图无修改。

Fig. 2 The count district, main industrial factories and road networks, and land use patterns

2.2 土壤采样及重金属分析测试

按照网格法进行采样点布局,将研究区划分为2 km×2 km的网格,以网格中心点作为预设采样点,共有1156个采样点（图1b）。在实地采样的过程中,利用多点采样法采集土壤表层（0~20 cm）样品,等量混合后装入自封袋;采样点位置根据实际情况进行调整,利用手持GPS记录实际采样点地理坐标。将土壤样品去除杂质、风干并研磨后,进行Cd、Cu、Hg、Pb和Zn含量的分析测试。具体测试步骤如下：利用HClO₄-HNO₃-HF混合溶液对样品进行微波消解,进而利用电感耦合等离子体发射质谱仪测试Cd、Cu、Pb和Zn的含量;在样品经H₂SO₄-HNO₃-KMnO₄消解后,Hg的含量利用原子荧光光度计测得。以国家土壤一级标准物质（GSS-1）作为标准样品开展质量控制,所有元素的回收率均在100±10%^[2]。

2.3 线性模型

给定数据集$D\text{=}\left\{ \left( {{x}_{i}},{{y}_{i}} \right) \right\}_{i=1}^{N}$,按照MLR模型,预测值可表示为多个自变量的线性组合：

（1）

f (x) = ω 1 x 1 + ω 2 x 2 + … + ω n x n + b

式中：

ω i

表示回归系数;

b

表示常数项。

LASSO回归和岭回归是传统MLR模型的变体,在损失函数的计算过程中分别引入L₁和L₂范数,以降低自变量多重共线性所导致的信息冗余^[21];而ENR是LASSO回归和岭回归的结合,兼具二者的优势,能够在降低模型复杂度的同时确保预测的准确率^[22]。本研究在R 4.0.2平台上借助“caret”软件包构建线性模型。

2.4 非线性模型

2.4.1 集成学习模型

（1）RF由传统的分类和回归树（CART）发展而来,具有预测效率高且能够有效抵抗过拟合的优势。首先,根据bootstrap重采样的方法,从原始训练集中抽取若干大小相同的子集,并利用每个子集训练一棵决策树;继而,在每棵决策树上,选取子样本中的最优变量进行节点分割^[15]。RF的最终预测结果由所有树的结果进行平均得到,其计算公式为：

（2）

F (x) = 1 n ∑ t = 1 n h t (x)

式中：F(x)为RF的最终预测结果;h_t(x)为第t棵决策树的回归预测结果。

RF的构建在R 4.0.2平台上利用“randomForest”软件包完成。

（2）SGB在传统的梯度提升机（GBM）的基础上引入随机性,以提高预测精度、训练速度及集成多样性^[15]。首先,利用一个随机抽样的子集训练决策树,并计算损失函数在当前集成器预测输出的负梯度,即“伪残差”。第t次迭代中的伪残差

ν π (i)

可以表示为：

（3）

ν π (i) = - [∂ Φ (y π (i), F (x π (i)) ∂ F (x π (i))] F (x) = F t - 1 (x)

式中：损失函数

Φ (y, F (x))

可微;F(x)表示当前基学习器;

{π (i)}

表示随机序列。

在下一轮迭代中,新引入的基学习器的目标便是拟合上一轮样本的伪残差,使损失函数朝着最快的方向下降。

SGB的构建在R 4.0.2平台上借助“caret”软件包完成。

（3）stacking来源于“堆叠泛化”的概念,相比于bagging和boosting算法,stacking算法能够同时集成不同类型的基学习器进行预测^[23]。stacking的基本原理是通过构建多层结构以实现多个模型的集成,利用原始数据集训练L⁰空间中的学习器,并以L⁰空间的输出值作为L¹空间的输入值,进行进一步的泛化^[16]。本研究以MLR、RF、GBM及SVM-R作为基学习器,用RF算法集成基学习器的预测结果。利用R 4.0.2平台中的“caretEnsemble”包完成stacking集成模型的构建。

2.4.2 SVM-L和SVM-R

SVM的目的是使用支持向量来寻找最大间隔超平面以分离两组数据。当训练数据线性可分时,可直接将最大化分类间隔表示为一个优化问题进行求解;当原始数据非线性可分时,利用核函数将训练数据集映射到高维空间,使得原始训练集在新的维度上可以搜索到最优分离超平面,即通过非线性映射将低维空间的非线性问题转化为高维空间的线性问题。在数据非线性、不可分的情况下,则对训练集中每个样本引入松弛变量,从而求解相应的优化问题^[24]。本研究采用线性核和高斯核两类核函数,分别构建SVM-L和SVM-R模型,在R 4.0.2平台上使用“caret”软件包实现建模。

2.4.3 BP-ANN和avNNet

BP-ANN曾被称为多层感知机,其结构具有一个输入层、一个或多个隐藏层和一个输出层。BP-ANN的运算包括信号的前向传播和误差的反向传播两个过程。当神经元接收到的信号超出其阈值时,该神经元被激活,并将处理后的信号向前传播;同时,通过将误差反向传播,以不断调整网络的权值和阈值,达到减少预测误差的目的^[25]。在本研究中,利用随机梯度下降算法进行神经网络的优化,并选择sigmoid函数作为激活函数。

sigmoid函数表达式如下：

（4）

f (x) = 1 1 + e - x

avNNet^[26]能够同时使用多个拓扑结构相同的神经网络进行预测,并输出预测结果的平均值,以此提高单个神经网络的泛化能力。

BP-ANN和avNNet在R 4.0.2平台上分别利用“nnet”和“caret”软件包构建。

2.5 模型精度评价

本研究使用决定系数（R²）、平均绝对误差（MAE）、均方根误差（RMSE）及预测值/实际值（P/O）共4个指标进行机器学习预测精度评价^[13,23,27]。R²用于反映预测值与观测值的拟合程度,其数值介于0~1之间,值越大,模型性能越好。MAE和RMSE用于量化预测值和实际值之间的误差,值越小,模型预测精度越高。P/O通过反映预测值和实际值的接近性来刻画模型的精确性,P/O值越接近于1,说明模型精度越高。R²、MAE、RMSE及P/O的计算公式如下：

（5）

R 2 = 1 - ∑ i = 1 N (z ˆ i - z i) 2 ∑ i = 1 N (z i - z -) 2

（6）

M A E = 1 N ∑ i = 1 N z ˆ i - z i

（7）

R M S E = 1 N ∑ i = 1 N (z ˆ i - z i) 2

（8）

P / O = z ˆ i z i

式中：N表示样点个数;

z i

和

z ˆ i

分别表示样点i处的实际值和预测值;

z -

为实际值的均值。

3 结果分析

3.1 研究区土壤重金属及环境辅助变量描述性统计

研究区五种土壤重金属的描述性统计值见表1,Cd、Cu、Hg、Pb和Zn的含量平均值分别为0.24 mg∙kg^-1、29.10 mg∙kg^-1、0.048 mg∙kg^-1、28.28 mg∙kg^-1和77.09 mg∙kg^-1,均大于其在山东省的背景值^[28];其中Cd和Hg的平均含量高于各自背景值的3倍及以上,说明研究区土壤中Cd和Hg的富集较为严重。变异系数可以反映人类活动对土壤重金属富集的影响程度。研究区土壤重金属的变异系数由43%（Zn）到996%（Cd）,均为高度变异,表明研究区土壤重金属受到人类活动的强烈干扰。五种土壤重金属数据呈现出强烈的正偏态分布,为此,对重金属数据进行对数变换,以减小空间预测的误差。鉴于人为排放对研究区土壤重金属富集起到的重要影响,选择采样点距各类工厂、道路及居民点距离、采样点处土地利用类型等10项人类活动因子作为土壤重金属空间预测的环境辅助变量（表2）。

表1 研究区土壤重金属含量描述性统计（n=1156）

Tab. 1 Statistical analysis of soil heavy metals contents in the study area (n=1156)

	平均值	标准差	变异系数(%)	方差	偏度	峰度	最大值	最小值	背景值^[28]
Cd	0.24	2.34	996	5.49	33.86	1149.77	79.75	0.063	0.07
Cu	29.10	14.20	49	202.10	8.50	145.30	313.00	7.80	22.30
Hg	0.048	0.147	306	0.022	25.970	782.947	4.579	0.005	0.016
Pb	28.28	15.03	53	225.80	13.74	302.29	391.00	9.60	24.50
Zn	77.09	33.26	43	1105.97	18.99	506.40	994.60	39.30	60.90

表2 研究区环境辅助变量描述性统计

Tab. 2 Statistical analysis of the environmental auxiliary variables in the study area

变量	类型	单位	分辨率	平均值	最大值	最小值
距居民点距离	连续变量	m	100	22509.2	87209.5	900.0
距道路距离	连续变量	m	100	30725.7	261604.0	0.0
距钢铁工厂距离	连续变量	m	100	401298.5	1210290.0	8845.6
距金属加工工厂距离	连续变量	m	100	335646.9	1197280.0	5400.0
距机械工厂距离	连续变量	m	100	229781.0	683515.0	900.0
距建材工厂距离	连续变量	m	100	348005.2	1057050.0	2545.6
耕地	分类变量	-	100	-	-	-
林地	分类变量	-	100	-	-	-
草地	分类变量	-	100	-	-	-
建设用地	分类变量	-	100	-	-	-

3.2 机器学习建模

3.2.1 模型构建及精度评价

按照7:3划分训练集与验证集,随机选取训练集和验证集的样点。利用训练集（n=809）的土壤重金属数据及相关环境辅助变量构建并训练九种机器学习模型,得到五种重金属空间建模的超参数（表3）,可以看出同种模型对不同元素空间预测的超参数基本一致。验证集（n=347）数据用于进行模型的预测精度验证,计算得到九种模型对五种土壤重金属预测的R²、MAE、RMSE及P/O（表4）。在九种模型预测结果中,R²的最大值为0.448,为RF对Pb的预测;其次是SVM-R对Pb的预测,R²为0.443;而SVM-L对Zn的预测产生了R²的最小值（0.117）。MAE的变化范围为0.0118~9.081,最小值和最大值分别来自于RF对Hg的预测和stacking集成模型对Zn的预测;RF对Hg预测的RMSE最小,为0.0173,而SVM-L对Zn的预测产生了RMSE的最大值（11.733）;P/O的变化范围为1.009~1.202,SVM-R对Zn预测的P/O值最接近于1,为1.009。在九种机器学习模型中,三种集成学习模型（RF、SGB和stacking集成模型）以及SVM-R对土壤重金属空间预测的R²普遍较高,神经网络模型（avNNet和BP-ANN）和RF预测的MAE通常相对较低,RF和SVM-R倾向于产生更低的RMSE,而支持向量机模型（SVM-L和SVM-R）预测的P/O更接近于1。

表3 土壤重金属空间预测的模型超参数

Tab. 3 Hyper-parameters for the prediction of the soil heavy metals contents

模型属性	模型名称	超参数	Cd	Cu	Hg	Pb	Zn
神经网络模型	avNNet	size	7	7	8	8	8
	avNNet	decay	0.5	0.01	0.1	0.05	0.01
	BP-ANN	size	6	9	8	8	7
	BP-ANN	decay	0.01	0.01	0.01	0.01	0.01
线性模型	ENR	fraction	1	1	1	1	1
线性模型	ENR	lambda	0.0001	0.1	0.0001	0.0001	0.0001
集成学习模型	RF	mtry	2	3	6	3	3
	RF	ntree	200	500	200	200	200
	SGB	n.trees	50	50	50	50	50
		interaction.depth	3	3	3	3	3
		shrinkage	0.1	0.1	0.1	0.1	0.1
		n.minobsinnode	10	10	10	10	10
	stacking集成模型	mtry	2	2	2	2	2
	stacking集成模型	ntree	500	500	500	500	500
支持向量机模型	SVM-L	C	1	1	1	1	1
	SVM-R	C	1	1	1	1	1
	SVM-R	sigma	0.100507	0.115409	0.087899	0.117211	1.121695

表4 土壤重金属空间预测精度评价

Tab. 4 Model validation of spatial prediction of soil heavy metals

		avNNet	BP-ANN	ENR	MLR	RF	SGB	stacking集成模型	SVM-L	SVM-R
Cd	R²	0.378	0.275	0.294	0.294	0.399	0.284	0.283	0.262	0.374
	MAE	0.0319	0.0339	0.0330	0.0330	0.0309	0.0331	0.0319	0.0332	0.0305
	RMSE	0.0412	0.0445	0.0439	0.0439	0.0405	0.0442	0.0442	0.0449	0.0413
	P/O	1.054	1.063	1.060	1.060	1.051	1.058	1.056	1.026	1.024
Cu	R²	0.161	0.170	0.169	0.170	0.263	0.225	0.171	0.155	0.285
	MAE	5.291	5.072	5.126	5.131	4.817	4.942	5.133	5.091	4.660
	RMSE	6.642	6.606	6.610	6.609	6.225	6.383	6.604	6.665	6.131
	P/O	1.077	1.073	1.078	1.077	1.057	1.067	1.069	1.070	1.043
Hg	R²	0.356	0.298	0.214	0.214	0.394	0.330	0.279	0.179	0.311
	MAE	0.0119	0.0124	0.0131	0.0131	0.0118	0.0125	0.0123	0.0130	0.0120
	RMSE	0.0178	0.0186	0.0197	0.0197	0.0173	0.0182	0.0188	0.0201	0.0184
	P/O	1.175	1.168	1.199	1.199	1.190	1.202	1.179	1.132	1.103
Pb	R²	0.338	0.349	0.427	0.427	0.448	0.416	0.423	0.406	0.443
	MAE	3.878	3.732	3.539	3.539	3.508	3.619	3.555	3.492	3.527
	RMSE	5.181	5.136	4.819	4.819	4.729	4.865	4.835	4.907	4.751
	P/O	1.036	1.031	1.033	1.033	1.034	1.027	1.021	1.013	1.010
Zn	R²	0.159	0.144	0.141	0.141	0.274	0.155	0.145	0.117	0.262
	MAE	8.877	9.028	9.054	9.055	8.408	8.896	9.081	9.069	8.221
	RMSE	11.448	11.552	11.569	11.569	10.636	11.479	11.542	11.733	10.726
	P/O	1.025	1.029	1.035	1.035	1.030	1.028	1.030	1.014	1.009

综合4个精度评价指标,本研究九种机器学习模型对同一重金属的预测效果具有差异（表4）。对于Cd而言,RF、avNNet和SVM-R的空间预测精度相近,精度评价指标总体优于其他模型。SVM-R对Cu的空间预测效果最好,4个精度评价指标均为最佳;RF次之;其他模型表现明显劣于以上两个模型。对于Hg的预测,RF具有最佳性能,R²为0.394;其他八种模型除了R²比RF低外,其他3个精度评价指标均与之接近。对Pb而言,RF、SVM-R、ENR和MLR的预测精度相近;其中RF精度评价指标稍好,为Pb空间预测的最佳模型。在对Zn的预测中,RF和SVM-R各有优劣,RF的R²最高,RMSE最低,SVM-R的P/O和MAE则最为理想。整体来看,RF对五种重金属的空间预测的性能均较好,是本研究中土壤重金属空间建模的最优模型;SVM-R次之,可作为备选模型。

3.2.2 关于预测模型性能的讨论

对于土壤重金属的空间预测,不同机器学习模型的性能存在差异。在本研究中,相比于非线性模型,线性模型对土壤重金属的空间预测精度偏低（表4）。这是因为线性模型仅能构建变量之间简单的线性关系,导致模型的预测受到限制。Tan等的研究既证实了线性模型的可靠性,同时也指出了非线性模型相比单纯线性模型的优势^[29]。

在三种集成学习模型中,RF具有更高R²和较低的MAE、RMSE,且P/O接近于1（表4）,是研究区土壤重金属空间预测的最优模型。Tan等^[29]、Jia等^[30]和Li等^[31]分别将RF应用至徐州、长江三角洲南部以及广东省西北部土壤重金属的空间预测,3项研究中的RF均能取得理想的预测效果。另外,Qiu等对比了RF、CART以及逐步线性回归三类模型对土壤Cd的空间预测精度,发现RF的预测结果更加精确^[32]。本研究中,SGB对土壤重金属预测的R²均低于RF,RMSE和MAE均高于RF,尽管SGB对Pb和Zn预测的P/O比RF更接近于1,但总体上SGB的预测效果劣于RF（表4）。相反,Wang等将SGB和RF模型应用于土壤Pb和Cd的空间建模,发现SGB能够取得比RF更准确的结果^[33]。一般来说,RF建模的超参数调整简单,且运算效率高,通常其预测效果相对其他模型更加理想;然而,若进行细致的超参数调整,SGB或许可以具备比RF更优越的性能^[34]。本研究中stacking集成模型的预测精度低于RF和SGB（表4）,这可能与基学习器和集成算法的选择有关^[34]。

在本研究中,SVM-R的预测性能仅次于RF,在对土壤重金属空间预测中取得了较高的R²和较低的RMSE、MAE;同时,对比其他模型,SVM-R的P/O值最接近于1（表4）。高斯核是SVM建模过程中最常用的核函数。Sakizadeh等对比了基于线性核、高斯核和多项式核三种核函数的SVM对土壤重金属空间预测的精度,发现采用高斯核的SVM具有更高的精确性^[35]。

相比于BP-ANN,avNNet的预测性能更加优越（表4）。Taghizadeh-Mehrjardi等对avNNet的研究发现,将训练得到的所有模型均用于解释变量的预测可以提高模型的泛化能力,使预测结果更加准确^[26]。秦夕淳^[36]、曾菁菁^[7]20-62和任加国^[37]均报道了BP-ANN在土壤重金属空间建模中的可靠性。另外,Song等比较了反向传播神经网络–回归克里格（BPANN-OK）和MLR-OK对土壤重金属的预测精度,发现BPANN-OK的准确性高于MLR-OK^[13]。

3.3 土壤重金属空间分布及其影响因素

图3~图7展示了基于九种机器学习模型的研究区五种土壤重金属空间分布图。对于同种重金属而言,九种模型得到了相似的空间预测结果,说明九种模型均能够有效地展示区域土壤重金属的空间分布。对比各模型对同种元素的空间预测图可以看出,相比于其他模型,RF、SGB和stacking集成模型预测图中元素含量的高值区不够显著,尤其是对于Cd,表明这三种模型对土壤重金属含量的预测值较为分散;avNNet和BP-ANN的预测图具有较为明显的斑块状区域,尤其是对于Cd、Cu和Zn,说明二者对重金属含量的预测值相对集中。

显示原图|下载原图ZIP|生成PPT

图3 基于九种模型的土壤Cd含量空间分布

Fig. 3 Spatial distributions for Cd concentration in soils generated from nine models

显示原图|下载原图ZIP|生成PPT

图4 基于九种模型的土壤Cu含量空间分布

Fig. 4 Spatial distributions for Cu concentration in soils generated from nine models

显示原图|下载原图ZIP|生成PPT

图5 基于九种模型的土壤Hg含量空间分布

Fig. 5 Spatial distributions for Hg concentration in soils generated from nine models

显示原图|下载原图ZIP|生成PPT

图6 基于九种模型的土壤Pb含量空间分布

Fig. 6 Spatial distributions for Pb concentration in soils generated from nine models

显示原图|下载原图ZIP|生成PPT

图7 基于九种模型的土壤Zn含量空间分布

Fig. 7 Spatial distributions for Zn concentration in soils generated from nine models

对比RF得出的五种土壤重金属含量的空间分布格局（图3~图7）,发现各重金属的空间变异状况基本一致,均呈现出由区域东北部至西南部递减的趋势,3个高值区分布在研究区东北部、北部及南部。研究区东北部包括淄博市淄川区和博山区市区,以建设用地为主要的土地利用类型,分布有大量工业生产企业,交通线路密集（图2）,可见东北部土壤受到了强烈的人为干扰,造成严重的土壤重金属污染。研究区南部为济南市莱芜区和钢城区,作为山东省典型的重工业基地,莱芜区和钢城区拥有多种工业企业（图2a、图2b）,当地工业排放较多,土壤重金属超过其在山东省相应的背景值^[38],富集较为严重。研究区北部包括济南市历城区和章丘区的边缘,土地利用类型以耕地、林地和草地为主,零星分布的工厂和道路造成了一定程度的土壤重金属污染（图2）,但北部重金属高值区不如东北部和南部显著（图3~图7）。

利用RF和SGB分别计算自变量对因变量的均方误差增加的百分比（%IncMSE）和相对影响（ref.inf）,以此刻画10项环境辅助变量对土壤重金属空间预测的相对重要程度（图8）。RF和SGB提供的环境因子的相对重要性排名近似一致。总体来说,采样点距各类工业企业的距离比采样点所处的土地利用类型对重金属空间分布具有更重要的影响,表现出更高的%IncMSE和ref.inf。研究区土壤重金属的空间分布格局受到采样点距建材工厂距离的影响最明显,表明建材工业是当地土壤重金属空间分异的重要影响因子,这可能是由研究区内建材企业数量最多导致的（图2b）。五种重金属的空间分布格局受到建设用地的影响普遍较小,而距各类型工厂的距离对重金属空间分布有显著影响,说明建设用地内的工厂造成的污染范围明显超出了建设用地的范围,导致建设用地与重金属的空间匹配度较低（图2c）。

显示原图|下载原图ZIP|生成PPT

图8 环境因子对土壤重金属空间预测的相对重要程度

Fig. 8 The relative importance for ten environmental factors to the spatial predictions of soil heavy metals

4 结论

本研究构建了九种机器学习模型,并以山东省典型区域1156个表层土壤样品中五种重金属元素（Cd、Cu、Hg、Pb、Zn）以及10项环境辅助变量数据开展模型的应用验证,比较了不同模型的精确性;在此基础上,绘制了土壤重金属的空间分布图,厘清了其空间变异的影响因素。

（1）研究区中土壤重金属含量平均值均大于其在山东省相应的背景值,且均表现出高度变异,表明当地土壤重金属污染较为严重,并受到强烈的人为干扰。

（2）九种模型的预测精度评价表明,集成学习模型（RF、SGB和stacking集成模型）以及SVM-R能够产生较高的R²,神经网络模型（avNNet和BP-ANN）和RF的MAE通常较低,RF和SVM-R倾向于产生更低的RMSE,支持向量机模型（SVM-L和SVM-R）预测的P/O最接近于1。综合对比九种模型的预测精度,RF对五种重金属空间预测的精度均较高,是本研究中土壤重金属空间预测的最佳模型;SVM-R可作为备选模型;其他模型的精度明显劣于以上两个模型。

（3）RF的空间预测结果表明,研究区五种土壤重金属的空间分布均呈现出由区域东北部至西南部递减的趋势,东北部、北部及南部的3个高值区与工业企业和交通线路的分布格局一致,说明人类活动是研究区土壤重金属空间分异的重要影响因子。

真诚感谢匿名评审专家在论文评审中所付出的时间与精力,评审专家对本文研究方法、结果与讨论的修改意见,使本文获益匪浅。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Alloway B. Heavy Metals in Soils. Dordrecht: Springer, 2013: 3-4.

[2]	吕建树. 烟台海岸带土壤重金属定量源解析及空间预测. 地理学报, 2021, 76(3): 713-725. DOI [Lv Jianshu. Source apportionment and spatial prediction of heavy metals in soils of Yantai coastal zone. Acta Geogrophica Sinica, 2021, 76(3): 713-725.] DOI: 10.11821/dlxb202103015. DOI

[3]	Fei X F, Christakos G, Xia R, et al. Improved heavy metal mapping and pollution source apportionment in Shanghai City soils using auxiliary information. Science of the Total Environment, 2019, 661: 168-177. DOI: 10.1016/j.scitotenv.2019.01.149. DOI

[4]	Shaheen A, Iqbal J, Hussain S. Adaptive geospatial modeling of soil contamination by selected heavy metals in the industrial area of Sheikhupura, Pakistan. International Journal of Environmental Science & Technology, 2019, 16(8): 4447-4464. DOI: 10.1007/s13762-018-1968-4. DOI

[5]	Fang G C, Zheng Y C. Diurnal ambient air particles, metallic elements dry deposition concentrations study during year of 2012-2013 at a traffic site. Atmosphere Environment, 2014, 88: 39-46. DOI: 10.1016/j.atmosenv.2014.01.055. DOI

[6]	Lu X W, Pan H Y, Wang Y W. Pollution evaluation and source analysis of heavy metal in roadway dust from a resource-typed industrial city in Northwest China. Atmosphere Pollution Research, 2017, 8(3): 587-595. DOI: 10.1016/j.apr.2016.12.019. DOI

[7]	曾菁菁. 基于不同建模的土壤重金属空间分布预测及比较研究. 南京: 南京大学硕士学位论文, 2018. [Zeng Jingjing. Prediction and comparison of spatial distribution of soil heavy metals based on different factors and models. Nanjing: Master Dissertation of Nanjing University. 2018.]

[8]	Isaaks E H, Srivastava R M. Spatial continuity measures for probabilistic and deterministic geostatistics. Mathematical Geology, 1988, 20(4): 313-341. DOI: 10.1007/bf00892982. DOI

[9]	Padarian J, Minasny B, McBratney A B. Machine learning and soil sciences: A review aided by machine learning tools. Soil, 2020, 6(1): 35-52. DOI: 10.5194/soil-6-35-2020. DOI

[10]	Wadoux A M J-C, Minasny B, McBratney A B. Machine learning for digital soil mapping: Applications, challenges and suggested solutions. Earth-Science Reviews, 2020, 210: 103359. DOI: 10.1016/j.earscirev.2020.103359. DOI

[11]	Camargo L A, Marques J J, Barron V, et al. Predicting potentially toxic elements in tropical soils from iron oxides, magnetic susceptibility and diffuse reflectance spectra. Catena, 2018, 165: 503-515. DOI: 10.1016/j.catena.2018.02.030. DOI

[12]	Tan K, Wang H M, Chen L H, et al. Estimation of the spatial distribution of heavy metal in agricultural soils using airborne hyperspectral imaging and random forest. Journal of Hazardous Materials, 2020, 382: 120987. DOI: 10.1016/j.jhazmat.2019.120987. DOI

[13]	Song Y Q, Zhu A X, Cui X S, et al. Spatial variability of selected metals using auxiliary variables in agricultural soils. Catena, 2019, 174: 499-513. DOI: 10.1016/j.catena.2018.11.030. DOI

[14]	Sirsat M, Cernadas E, Fernández-Delgado M, et al. Automatic prediction of village-wise soil fertility for several nutrients in India using a wide range of regression methods. Computers and Electronics in Agriculture, 2018, 154: 120-133. DOI: 10.1016/j.compag.2018.08.003. DOI

[15]	González S, García S, Del Ser J, et al. A practical tutorial on bagging and boosting based ensembles for machine learning: Algorithms, software tools, performance study, practical perspectives and opportunities. Information Fusion, 2020, 64: 205-237. DOI: 10.1016/j.inffus.2020.07.007. DOI

[16]	Wolpert D H. Stacked generalization. Neural networks, 1992, 5(2): 241-259. DOI: 10.1016/S0893-6080(05)80023-1. DOI

[17]	Breiman L. Random forests. Machine Learning, 2001, 45: 5-32. DOI: 10.1023/A:1010933404324. DOI

[18]	Friedman J H. Stochastic gradient boosting. Computational Statistics & Data Analysis, 2002, 38: 367-378. DOI: 10.1016/S0167-9473(01)00065-2. DOI

[19]	Heung B, Ho H C, Zhang J, et al. An overview and comparison of machine-learning techniques for classification purposes in digital soil mapping. Geoderma, 2016, 265: 62-77. DOI: 10.1016/j.geoderma.2015.11.014. DOI

[20]	McCulloch W S, Pitts W. A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, 1943, 5: 115-133. DOI: 10.1007/BF02478259. DOI

[21]	Gupta A, Vasava H B, Das B S, et al. Local modeling approaches for estimating soil properties in selected Indian soils using diffuse reflectance data over visible to near-infrared region. Geoderma, 2018, 325: 59-71. DOI: 10.1016/j.geoderma.2018.03.025. DOI

[22]	Zou H, Hastie T. Regularization and variable selection via the elastic net. Journal of the Royal Statistical Society Series B-Statistical Methodology, 2005, 67: 301-320. DOI: 10.1111/j.1467-9868.2005.00503.x. DOI

[23]	Tan K, Ma W B, Chen L H, et al. Estimating the distribution trend of soil heavy metals in mining area from HyMap airborne hyperspectral imagery based on ensemble learning. Journal of Hazardous Materials, 2021, 401: 123288. DOI: 10.1016/j.jhazmat.2020.123288. DOI

[24]	Smola A J, Scholkopf B. A tutorial on support vector regression. Statistics & Computing, 2004, 14(3): 199-222. DOI: 10.1023/B:STCO.0000035301.49549.88. DOI

[25]	Basheera I A, Hajmeer M. Artificial neural networks: Fundamentals, computing, design, and application. Journal of Microbiological Methods, 2000, 43(1): 3-31. DOI: 10.1016/S0167-7012(00)00201-3. DOI PMID

[26]	Taghizadeh-Mehrjardi R, Schmidt K, Amirian-Chakan A, et al. Improving the spatial prediction of soil organic carbon content in two contrasting climatic regions by stacking machine learning models and rescanning covariate space. Remote Sensing, 2020, 12(7): 1095. DOI: 10.3390/rs12071095. DOI

[27]	Guan Q Y, Zhao R, Wang F F, et al. Prediction of heavy metals in soils of an arid area based on multi-spectral data. Journal of Environmental Management, 2019, 243: 137-143. DOI: 10.1016/j.jenvman.2019.04.109. DOI

[28]	中国环境监测总站. 中国土壤元素背景值. 北京: 中国环境科学出版社, 1990: 334-378. [China National Environmental Monitoring Center. The background concentrations of soil elements in China. Beijing: China Environmental Science Press, 1990: 334-378.]

[29]	Tan K, Ma W B, Wu F Y, et al. Random forest-based estimation of heavy metal concentration in agricultural soils with hyperspectral sensor data. Environmental Monitoring & Assessment, 2019, 191(7): 446. DOI: 10.1007/s10661-019-7510-4. DOI

[30]	Jia X L, Fu T T, Hu B F, et al. Identification of the potential risk areas for soil heavy metal pollution based on the source-sink theory. Journal of Hazardous Materials, 2020, 393: 122424. DOI: 10.1016/j.jhazmat.2020.122424. DOI

[31]

X Y

, Geng

, Shen

W J

, et al. Quantifying the influencing factors and multi-factor interactions affecting cadmium accumulation in limestone-derived agricultural soil using random forest (RF) approach. Ecotoxicology and Environmental Safety, 2021, 209: 111773. DOI: 10.1016/j.ecoenv.2020.111773.

DOI

[32]	Qiu L F, Wang K, Long W L, et al. A comparative assessment of the influences of human impacts on soil Cd concentrations based on stepwise linear regression, classification and regression tree, and random forest models. PLoS One, 2016, 11(3): e0151131. DOI: 10.1371/journal.pone.0151131. DOI

[33]	Wang Q, Xie Z Y, Li F B. Using ensemble models to identify and apportion heavy metal pollution sources in agricultural soils on a local scale. Environmental Pollution, 2015, 206: 227-235. DOI: 10.1016/j.envpol.2015.06.040. DOI PMID

[34]	孙亮, 黄倩. 实用机器学习. 北京: 人民邮电出版社, 2017: 327-328. [Sun Liang, Huang Qian. Practical machine learning. Beijing: Posts & Telecom Press, 2017: 327-328.]

[35]	Sakizadeh M, Mirzaei R, Ghorbani H. Support vector machine and artificial neural network to model soil pollution: A case study in Semnan Province, Iran. Neural Computing & Application, 2017, 28 (11): 3229-3238. DOI: 10.1007/s00521-016-2231-x. DOI

[36]	秦夕淳. 基于神经网络的土壤重金属含量预测模型研究. 海口: 海南大学硕士学位论文, 2017: 14-26. [Qin Xichun. The study of soil heavy metals concentration prediction based on neural network. Haikou: Master Dissertation of Hainan University. 2017: 14-26.]

[37]

任加国, 龚克, 马福俊, 等. 基于BP神经网络的污染场地土壤重金属和PAHs含量预测. 环境科学研究, 2021: 1-15.

[Ren

Jiaguo

, Gong

, Ma

Fujun

, et al. The prediction of heavy metal and PAHs content in soil of pollution site based on BP neural network. Research of Environmental Sciences, 2021: 1-15.] DOI: 10.13198/j.issn.1001-6929.2021.04.22.

DOI

[38]

戴彬, 吕建树, 战金成, 等. 山东省典型工业城市土壤重金属来源、空间分布及潜在生态风险评价. 环境科学, 2015, 36(2): 507-515.

[Dai

, Lv

Jianshu

, Zhan

Jincheng

, et al. Assessment of sources, spatial distribution and ecological risk of heavy metals in soils in a typical industry: Based city of Shandong Province, eastern China. Environmental Science, 2015, 36(2): 507-515.] DOI: 10.13227/j.hjkx.2015.02.018.

DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究方法与数据来源

2.1 土壤重金属与环境辅助变量数据集

图1 研究区及土壤采样点地理位置

图2 研究区概况

2.2 土壤采样及重金属分析测试

2.3 线性模型

2.4 非线性模型

2.4.1 集成学习模型

2.4.2 SVM-L和SVM-R

2.4.3 BP-ANN和avNNet

2.5 模型精度评价

3 结果分析

3.1 研究区土壤重金属及环境辅助变量描述性统计

表1 研究区土壤重金属含量描述性统计（n=1156）

表2 研究区环境辅助变量描述性统计

3.2 机器学习建模

3.2.1 模型构建及精度评价

表3 土壤重金属空间预测的模型超参数

表4 土壤重金属空间预测精度评价

3.2.2 关于预测模型性能的讨论

3.3 土壤重金属空间分布及其影响因素

图3 基于九种模型的土壤Cd含量空间分布

图4 基于九种模型的土壤Cu含量空间分布

图5 基于九种模型的土壤Hg含量空间分布

图6 基于九种模型的土壤Pb含量空间分布

图7 基于九种模型的土壤Zn含量空间分布

图8 环境因子对土壤重金属空间预测的相对重要程度

4 结论

References