高光谱遥感图像光谱分辨率高、波段众多,能够获取地物几乎连续的光谱特征曲线,在地物分类识别方面具有特殊优势。近年来随着高、超高分辨率传感器技术的发展,高光谱图像同时能够获取目标地物丰富的空间细节信息,从而成为包含丰富的辐射、空间和光谱等多种信息的综合载体。然而光谱、空间分辨率的不断提高同时带来了以下两方面的问题:1)波段多、波段间的相关性高,分类需要的训练样本数目大大增多,往往因训练样本不足导致得到的训练参数不可靠,即维数灾问题;2)高分辨率、超高分辨率传感器能够获取目标地物丰富的空间细节信息,但不具备空间细节特征的提取能力。因此,光谱降维、分类器设计与应用成为两种常规解决方案。
在分类器设计与应用方面,支持向量机、随机森林、极端决策树、随机回归森林后分类、极端决策树嵌套二分集成、正则化贪婪森林、梯度提升决策树、随机逼近梯度提升决策树等统计学习方法在多光谱、高光谱、合成孔径雷达、极化合成孔径雷达遥感图像分类方面得到广泛应用。其中,梯度提升决策树具有算法概念简单,易实现,分类、回归与排序问题上性能优良等优势。然而同其他基于决策树的集成方法类似,当面临大规模高维样本训时其算法效率是不得不考虑的问题。为此,学者们提出了并行投票决策树、并行随机森林,轻量级梯度提升决策树、极端梯度提升决策树等高效的集成方法。
其中,极端梯度提升决策树(XGBoost)具有统计可解释性、高并行,GPU加速,分布式计算,支持多种数据(完整、缺失、稀疏、表格)处理,大数据平台移植(Hadoop、Spark、YARN、MPI、SGE、FLINK等),多编程语言支持(C、C++、Python、R、Scala、JAVA、Ruby、Julia等)及开源等优势。然而,作为一种新型的集成学习方法,极端梯度提升决策树遥感图像处理,尤其是在高光谱遥感图像空-谱分类方面并未得到深入研究。此外,极端梯度提升决策树依然具有一些几点劣势:1)作为一种提升集成方法,分类回归树(CART)作为提升器时在小样本数据易产生过拟合;2)深度学习中的丢弃(Dropout)技术的引入在一定程度上解决了过拟合问题,但降低了模型训练与预测效率,且无法使用提前终止技术;3)Elastic Net 回归和并行坐标下降法实现线性模型的引入解决了过拟合问题,提升了算法效率,但依然具有不适用于低维、高维但特征异质、线性不可分等数据的缺陷;4)将随机森林作为提升器使用,可能在一定程度上提升模型健壮性,但鉴于极端梯度提升决策树的提升集成策略与随机森林的经验风险最小化模型构建准则,在小样本问题是依然会面临过拟合问题。
针对上述问题,中国科学院新疆生态与地理研究所荒漠与绿洲生态国家重点实验室吉力力·阿不都外力研究员团队根据集成学习中的简单多数投票与Meta选择集成策略,遵循参数少、健壮、高效、微规模集成原则,提出了新型极端梯度提升决策树方法,既Meta-XGBoost,并成功应用于高、超高分辨率高光谱遥感图像的高精度、高效率空-谱分类。同时,在先前研究工作基础上提出了适用于高光谱遥感图像空间特征提取的扩展的最大极限稳定区域引导的形态学剖面方法。
研究结果表明,同支持向量机、随机森林、极端决策树、随机回归森林后分类、极端决策树嵌套二分集成、正则化贪婪森林、梯度提升决策树、随机逼近梯度提升决策树等统计学习方法相比,极端梯度提升决策树(XGBoost)是一种性能优良的分类方法。从高精度、高效率分类高光谱图像角度,提出的Meta-XGBoost新型极端梯度提升决策树方法性能最优;扩展的最大极限稳定区域引导的形态学剖面方法可有效克服传统形态学剖面、部分重构的形态学剖面等方法在高光谱遥感图像空间特征提取方面的劣势。
相关研究成果以“Meta-XGBoost for Hyperspectral Image Classification Using Extended MSER-Guided Morphological Profiles”为题发表于遥感领域权威期刊Remote Sensing上。