
近期,中国科学院地理所胡云锋课题组、内蒙古师范大学包玉海课题组,联合在ISPRS International Journal of Geo-Information上发表研究论文:Population Density Prediction at Township Scale Supported by Machine Learning Method: A Case Study in Inner Mongolia。第一作者为崔晨曦,系内蒙古师范大学硕士研究生,中国科学院地理科学与资源研究所客座研究生。
随着人口迁移和城市化的快速加速,准确的人口密度预测已成为区域规划、社会经济发展和资源管理的关键研究领域。对人口密度的高精度预测可以极大地帮助决策者进行资源分配、基础设施规划和应急管理,从而支持可持续发展。本研究通过整合多源数据预测内蒙古乡镇层面的人口密度,采用机器学习模型,包括随机森林、XGBoost 和 LightGBM 显著提高预测准确性,并利用可解释的机器学习技术来定量分析各种变量对人口分布的贡献。该研究不仅为内蒙古地区的人口密度预测提供了新的思路,也为全球类似地区的人口研究提供了创新的技术支持。
1. 前言
随着人口迁移和城市化进程的加速,准确的人口密度预测在区域规划、社会经济发展和资源管理中变得至关重要。高精度的人口密度预测可以帮助决策者有效配置资源、规划基础设施和应急管理,支持可持续发展。传统的人口密度预测方法主要依赖宏观统计数据和空间插值等技术,适用于大规模的预测,但在小尺度(如乡镇)的应用中,存在捕捉空间异质性和多变量交互的局限性。为克服这一局限,本研究采用第七次人口普查数据,结合多源数据(如遥感数据、土地利用数据和夜间光数据)进行人口密度预测,从乡镇尺度展现内蒙古区域的人口空间分布格局及各种机器学习模型在预测人口密度方面的表现。
2. 研究方法多元线性回归 (Multiple Linear Regression):
- 用于探索多个独立变量与人口密度之间的线性关系;
- 通过线性方程量化独立变量对人口密度的线性影响;
- 适用于捕捉简单的线性关系,但在面对复杂的非线性关系时可能表现不足。
机器学习模型:
- 随机森林 (Random Forest, RF):通过构建多个决策树并对结果进行平均来提高预测准确性,具有强大的鲁棒性和抗噪能力;
- XGBoost:基于梯度提升决策树(GBDT)算法,采用迭代优化的方式提升模型的预测能力,适用于处理非线性数据;
- LightGBM:与XGBoost相似,采用梯度提升决策树,但通过更高效的算法和优化策略,能够加速训练过程并提高预测精度。
K折交叉验证(K-Fold Cross-Validation):
- 将数据集随机划分为K个子集,每次迭代使用一个子集作为验证集,其余子集用于训练。每轮验证后,结果取平均,确保模型评估的稳定性和可靠性。本研究采用10折交叉验证,将数据划分为10个子集,训练和验证各进行10轮。
准确性评估指标:
- 均方误差 (MSE):衡量预测值与实际值之间的平方差的平均值,反映整体预测误差;
- 平均绝对误差 (MAE):衡量预测值与实际值之间的绝对差的平均值,提供直观的预测精度;
- 决定系数 (R²):评估模型对因变量变化的解释能力,R²值越接近1表示模型拟合越好。
3. 研究结果
(1)内蒙古人口密度的空间分布模式,整体呈现倒“S”形状。人口密度的边界由“乌鲁布铁(C1)—图勒毛都(C2)—洪格尔高勒(C3)—巴音宝力格(C4)—嘉尔嘎勒赛汗(C5)”一线划定,呈现出从东南向西北的分布趋势。该边界与300毫米等降水量线和大兴安岭(M1)—阴山(M2)—狼山(M3)山脉大致一致。人口密度较高的地区主要集中在河套平原(黄河流经的内蒙古中部地区)和内蒙古东南部的锡辽河流域(包括通辽和赤峰)。相比之下,人口密度较低的地区主要分布在300毫米等降水量线以南的草原和沙漠区域。
图1.2020年内蒙古乡镇人口密度分布
(2)内蒙古自治区的人口密度分布存在显著不均。平均人口密度为21人/平方千米,人口密度最高的地区是位于东南部的赤峰市(振兴地区),达36,631.48人/平方千米,而最低的是位于东北部的额尔古纳市(恩和哈达地区),为0.002335人/平方千米。人口分布与土地面积存在严重不匹配。人口密度低于100人/平方千米的地区占总土地面积的97.6%,但仅占全区总人口的36.4%。相反,人口密度超过200人/平方千米的地区虽然仅占总土地面积的1.03%,却居住着54.3%的总人口,显示出内蒙古地区人口分布的高度不均衡。
图2.内蒙古不同人口密度分类乡镇总人口和面积折线图
(3)集成模型的预测能力明显强于线性回归。本研究使用了四种模型(线性回归、XGBoost、随机森林和LightGBM)来预测人口密度,并通过R²、均方偏差(MBE)和平均绝对误差(MAE)三个指标评估其性能。线性回归模型的R²为0.8236,表明其能够解释约82%的数据方差,但其MAE为1043.55,预测误差较大,且MBE为-157.95,表明模型有明显的低估偏差,未能捕捉到人口密度数据中的非线性和复杂关系。相比之下,XGBoost模型显著提高了预测准确性,R²达0.9758,能够解释超过97%的方差,MAE为358.91,远低于线性回归,MBE为18.72,接近零,显示出较小的系统性偏差。随机森林模型的表现与XGBoost相似,R²为0.9787,为四个模型中最高,表现出最强的预测能力,MAE为287.23,是所有模型中最低的,进一步证明了其在最小化预测误差方面的优势,MBE为10.08,显示出较小的偏差。
图3.在训练集和测试集上比较不同回归模型的人口密度预测结果
(4)夜间灯光指数和路网密度是最重要的预测变量。本研究分析了不同特征与人口密度预测之间的关系。夜间灯光指数与人口密度呈明显正相关,SHAP值随着夜间灯光指数的增加持续上升,表明其对人口密度预测具有强大的线性影响。路网密度在较低范围内与人口密度呈线性正相关,但达到一定阈值后,SHAP值趋于稳定,显示出基础设施完善地区的边际效应递减。耕地指数、森林指数、草地指数和坡度均表现出非线性关系。耕地指数在较低值时贡献较大,但随着指数增加,SHAP值下降并趋于稳定,说明在农业区扩展耕地对人口密度影响有限。森林、草地和坡度的影响类似,低值时较高,但随着这些特征增大,影响逐渐减弱。总体而言,夜间灯光指数和路网密度是最重要的预测变量,而其他变量则在特定范围内对人口密度预测有显著贡献,且呈现出边际效应递减的非线性特征。
图4.随机森林模型的特征重要性分析和SHAP值分布
图5.关键变量与人口密度预测的非线性关系
4. 结论
通过引入可解释机器学习技术,本研究不仅增强了模型的透明性,还揭示了各变量与人口密度之间的非线性关系,为未来人口分布研究提供了新的视角和方法。本研究结果表明,机器学习模型在处理复杂的非线性关系和多变量交互方面具有显著优势,从而有效提高了人口密度预测的准确性。为小尺度区域的人口密度预测提供了强有力的技术支持,具有较高的实际应用价值。此外,本研究开发的方法在类似地理条件的区域,尤其是其他地区的人口密度预测中具有广泛的应用潜力。