基于变量选择的偏最小二乘回归法和田间行走式近红外光谱进行土壤碳含量测定研究

文件大小：722.51KB
浏览次数：
发布时间：2014-09-16

文件介绍：

本资料包含pdf文件1个，下载需要1积分

近红外光谱分析技术是近年来发展最为迅速的分析技术之-，它具有快速、简便、经济、无损、无污染等特点，已经在农业等许多领域得到广泛应用[1]。在应用光谱技术进行土壤分析和土壤数字化制图方面，已经引起了广泛的兴趣。尤其是其野外、实时性和能多属性同时测定等特点，成为获取土壤信息的-种新手段l3。

土壤有机质由于其在作物养分供给、土壤结构的改善、防止土壤侵蚀和土壤可持续利用等方面具有非常重要的作用，因此-直是-种非常重要的土壤性质。随着全球变化研究的开展，土壤作为重要的碳汇，其积累、矿化、分解及含量的变化，与全球变化有着直接的关系，因此，掌握土壤有机质含量及其变化，对可持续的农业生产和全球变化，均有重要意义，如何大范围、快速获取土壤碳的含量和空间分布，成为-个重要的课题Ⅲ2 ]。

近红外光谱主要是倍频和合频的吸收，光谱信息重叠严重。土壤有机质通过-H，c-H，N-H等的混合吸收反应出来，土壤水也表现出强烈吸收的特征，尤其是在 1 400和1 900 nrn附近相当明显，土壤粘馏物和碳酸盐由于金属-0H加上 CH和 C-O而在近红外波段产生吸收。土壤作为-个复杂的混合体，对土壤光谱测定的影响因素很多，因此，在分析近红外反射光谱与土壤性质之间的关系时，需要化学计量学和多变量校正技术。目前，大多在实验室条件下进行土壤光谱测定以分析土壤有机质，而在田间条件下，由于土壤水分等变化更加明显，就更加困难，因此，通过变量选择等手段，把影响土壤有机质测定的光谱干扰信息过滤掉，使与土壤有机质相关的光谱信息得到保留和增强，显得尤为重要[3]。

同时，近红外光谱数据-般包含数百甚至上千个波段，进行建模时，应用所有波段来进行分析与建模，不但分析计算复杂度大大增加，而且由于噪声和干扰信息的存在，反而影响了建模的精度。因此，近年来，在变量选择(或者特征选择、波段选择)方面进行了大量的努力，目的是识别并选择出包含有用信息的波段或剔除那些包含噪声、无关信息的波段，变量选择在多变量校正分析与建模中的重要性得到越来越广泛的认同，已成为光谱数据分析建模过程中的关键步骤。

随着田间行走式测定设备的逐步成熟和推广应用，如何收稿日期：2012-10-31。修订日期：2013-02-25基金项目：浙江拾三农五方”合作计划项目(20100015)，浙江省重点科技创新团队项目(2010R50030)资助作者简介：沈掌泉，1969年生，浙江大学农业遥感与信息技术应用研究所副教授 e-mail：zhqshen###ju.edu.cn第 7期光谱学与光谱分析 1777中的 iPLS来建立。

2.2 协同区间偏最小二乘回归法将全光谱波段分割成若干个等宽的子区间，然后分别由2，3，4个子区间组合而成的光谱区间来建立PLSR模型，通过比较RMSECV，来确定最佳的子区间组合和最优的PLSR模型，这个方法被称为协同区间偏最小二乘回归法(synergyinterval PLS，siPLS)，是由Norgaard等提出，其优点是能灵活地进行组合和充分挖掘有效的光谱信息来建立好的模型，- 般比采用单个子区间更有效。在本研究中应用由Norgaard等人开发的iToolbox来进行siPLS的分析与建模[6 ]。

2.3 无信息变量消除法无信息变量消除法(uninformative variable elimination，UVE)是人为地加入-些随机变量，并以这些随机变量为参考，来剔除那些非关键的变量。通过 UvE进行特征选择后建立的模型，能够更好地防止过配和提高预测精度，但-般经UVE选择后变量数仍然较多[4]。在本研究中，应用CARS-PLS工具箱中的UVE-PLS函数来进行运算L8]。

2.4 连续投影算法连续投影算法(successive projection algorithm，SPA)是通过最携多元线性回归中的共线性问题来进行变量选择。

其选择变量的方法是从剩余的变量集合中选取在已经选取变量的正交子空问中具有最大投影值的变量。尽管研究表明基于 SPA的模型比基于全波段的模型具有相当或更好的预测能力，但 SPA也可能导致信噪比降低或在多变量分析建模中因变量过少的问题而影响模型的预测能力4 ]。在本研究中，应用 GUISPA工具箱来进行有关 SPA的运算。

2.5 无信息变量消除法与连续投影算法相结合Ye等提出将 U 和 SPA结合进行光谱特征选择，称为 UVE-SPA方法。与直接应用SPA相比，通过无信息变量的消除来加强光谱信息与预测值之间的联系，而且能使 SPA更集中有效地进行变量选择，从而提高模型的预测能力 · 。

2.6 基于遗传算法和偏最小二乘法的变量选择法把特征选择问题看作优化问题来进行处理，而遗传算法(genetic algorithm，GA)是-种通过模拟自然进化过程搜索最优解的方法。由于 GA具有诸多优点，因此它已被广泛地应用于组合优化、机器学习、信号处理、自适应控制等领域。

Leardi等人开发了PLS-GA工具箱，将遗传算法和PLS结合起来，发挥各自的优势，许多研究已证明是光谱数据特征选择的-种有效方法[1 。本研究应用 PLS-GA工具箱进行运算，进化代数为100，其他参数均采用缺省值。

3 结果与讨论3.1 不同变量选择方法的预测结果精度的比较分析表 2是应用不同方法对光谱变量进行选择后，应用PLSR建立预测模型，对独立检验数据集的预测精度∩以发现，与应用全部光谱变量的模型相比，通过变量选择，均能不同程度地改善模型的预测精度。其中UVE和UVE-sPA获得了较好的结果，说明其在变量选择方面是有效的，尤其是UVE-SPA只应用 5个变量，仍然保持了与UVE几乎-样的预测精度；而单独应用SPA所建模型的预测精度较低，说明 SPA的效果较差；而 GA-PLS尽管其精度比全部光谱变量要略好-些，但也不理想。

Tlable 2 Performance ofPLSR with differentvariable selection methodsNote：siPLS m-n means that the entire spectra1 range is split into m intervalsequaly and n intervals are selected for PLSR analysis在研究中，将光谱波段分割为8，16和 32个子区间(每个子区间分别包含 16，8和 4个光谱变量)，来研究 siPLS的效果。基于各子区间所建立的预测模型，各子区问的RM-SECV存在明显差异，随着子区间分割数的增加，差异更加明显，但其RMSECV均低于基于所有变量的检验精度(见图2)。而通过 2，3，4个子区间的组合建模，其预测精度均得到改善。从预测精度而言，当子区问分割数为 8时，因子区间包含的光谱变量较多，当参与建模的子区间数为2时，其预测精度较高，子区间数为3或4时，精度反而有所降低；当子区间分割数为 l6时，参与建模的子区间数为3或4时，其精度比2时明显提高；而当子区间分割数为 32，参与建模的子区问数为 4时，其精度要好于 2或 3。当子区问分割数为 8时，参与建模子区间数的变化，对模型预测精度的影响较小；而在子区间分割数为 16或 32时，模型的预测精度对参与建模子区间数的变化更加敏感。其原因也许是：当子区间分割数为8时，每个子区间包含的光谱变量较多，即使参与建模子区间数少，也能保证建模所需的光谱信息，而随着子区间数的增加，反而使光谱信息冗余度增加，并影响模型的质量；而随着子区间分割数的增加，子区间包含的变量数减少，需要更多的子区间来参与建模，以保证足够的光谱信息。与UVE和UVE-SPA相比，siPLS也能有效地进行光谱变量的选择，其所建模型，能获得相近甚至更好的预测精度。

1778 光谱学与光谱分析第33卷920 l 122 1 324 1 525 1 718Wavelength/rim言35爱3.02.5920 1 122 l 324 1 525 1 718Wavelength/nm920 l 021 1122 1 223 1 324 1 424 1 525 l 625 l 7l8Wavelength/rimFig.2 RMSECV values for intervals with different interval sizes(dotted line is RMSECV value for entire spectral range，italicnumbers are optimal numbers of componentsininterval model，solidlineis the spectralline，andthe entire spectral rangeissplit into 8(a)，16(b)and 32(c)intervals respectively.)3.2 基于不同变量选择方法的光谱变量选择结果分析尽管通过不同方法所选择出的变量数相差很大，但从其所选择变量的分布来分析(图3)，可以了解其所建模型精度差异的原因。通过 L兀，E选择，其有效波段范围主要集中于920964和1 3871 637 nIn二个区域，各变量的稳定性也清楚地显示了这-点(图 4)；UVE-SPA选择出 5个变量，分别为 926，932，964，l 406和 1 481 ni"n。SPA选择出 9个变量，尽管有4个在 uVE的范围内，但没有-个与 I 、，1-SPA的相同，说明仅通过 SPA选择的变量并不是最佳的，因此所建模型的效果也不佳，而先应用 UVE过滤掉无效甚至干扰的变量，然后再用 SPA来选择，能获得有效的变量来建模，920 1 034 l 147 l 261 l 374W avelength/nmGA.PLSUVESP UVE-SPAsiPLS 8.2siPLS舡3siPLS 8.4siPLS l6.2siPLS l 3siPLS 16.4siPLS 32-2siPLS 32.3PLS 324Fig.3 Selected wavelengths by different variable selectionmethods (siPLS m-n means that the entire spectralrange is split into m intervals equally and n intervalsare selected for PLSR modeling)Fig.4 Stability distribution of UVE for NIR spectral variablesand random variables(11Ie two horizontal dot Iines re-present the threshold boundaries)尽管 UVE和UVE-SPA所建模型的预测精度相当，但 UVESPA只有 5个变量，而 UVE则包括 49个。GAPLS选择出18个变量，尽管有 10个落在UVE的范围内，但只有 2个与UVE-SPA的相同，说明其选择也并不有效，因此所建模型的效果也不理想。siPLS 8选择的子区间，基本上与UVE的范围重叠，而且包含了UVEsPA的5个变量中的4个，因此，其模型的精度均较好；尽管siPLS 8-4包含了UVE-SPA的全部变量，但其包含的光谱变量数达全部变量数的-半，光谱信息的冗余度也大大增加，反而降低了模型的精度。si-PLS 16-2的变量均落在UVE的范围外，其模型的预测精度也最低，而 siPLS 16-3和siPLS 16-4的变量范围均与UⅦ 的范围部分重叠，因此，其所建模型的预测精度较高。而 si-O 5 O 5 4 3 3 2 >U ∞苫O 5 O 5 4 3 3 2 U ∞葛第7期光谱学与光谱分析 1779PLS 32-2只有 1个子区间(4个变量)落在 uVE的范围内，且未与UVESPA的相重叠，而 siPLS 32-3尽管有 2个子区间与 UVE的范围相重叠，但只有 1个变量与 UVE-SPA的相同，参与建模的变量数也较少，因此其模型的预测精度均不理想；而 siPLS 32-4尽管也只有 2个子区间与 UvE的相重叠，但有2个变量与UVE-SPA的相同，而且参与建模的变量数也有所增加，因此其模型的预测精度较好。

4 结论通过对几种常用的变量选择方法结果的比较分析，发现对于田间条件下应用行走式设备测定的近红外光谱而言，与应用全部光谱变量进行PLSR建模的精度比较，这些变量选择方法均有-定程度的改善，这与田间条件下，对光谱的影响因素多、干扰大有-定的关系，因此，在应用田间条件下获得的红外光谱数据进行土壤碳含量预测建模时，进行变量选择是非常必要的。应用 UvE、UVE-SPA和 siPLS这三种方法，取得了较好的效果，UVE-SPA只需 5个变量，其结果与uVE的49个变量的效果相当，说明UVE-SPA在变量选择上是非常有效的，这在文献中也已得到了证实[4 ；在应用siPLS进行变量选择和建模时，需要选择合适的子区间分割数、参与建模的子区间组合等参数，而且随着子区间分割数和参与建模子区间数的增加，需要尝试的子区间组合的数量也迅速增加，计算量也大大增加，这点对 siPLS的实际应用产生不利的影响。

致谢：对密歇根州立大学作物与土壤科学系 XuewenHuang博士和全球变化与对地观测研究中心Jiaguo Qi教授在研究数据获韧分析方面给予的帮助和支持，表示衷心的感谢 !。

Cecilon L，Cassagne N，Czarnes S，et a1.Soi1 Biology& Biochemistry，2008，40(7)：1975。

Stevens A，Udelhoven T，Denis A，et a1.Geoderma，2010，158(1-2)：32。

Vohland M，Besold J，Hil J，et a1.GeoderlTla，2011，166(1)：198。

Balabin R，Smirnov S.Analytica Chimica Acta，2011，692(1-2)：63。

Wu Di，Chen Xiaojing，Zhu Xiangou，et a1.Analytical Methods，2011，3(8)：1790。

Norgaard L，Saudland A，Wagner J，et a1.Applied Spectroscopy，2000，54(3)：413。

Hoskuldsson A.Chemometrics and Intelligent Laboratory Systems，2001，55(1-2)：23。

Li Hongdong，Liang Yizeng，Xu Qingsong，et a1.Analytica Chimica Acta，2009，648(1)：77。

Araujo M，Saldanha T，Galvao R，et a1.Chemometrics and Inteligent Laboratory Systems，2001，57(2)：65。

Galvao R，Pimente1 M，Arauio M，et a1.Analytica Chimica Aeta，2001，443(1)：107。

Ye Shengfeng，Wang Dong，Min Shungeng.Chemometrics and Inteligent La boratory Systems，2008，91(2)：194Leardi R Journa1 of Chemometrics，2000，14(5-6)：643。

Study on Soil Carbon Estimation by On。-the-Go Near-Infrared Spectra andPartial Least Squares Regression with Variable SelectionSHEN Zhang-quan ，LU Bi-hui ，SHAN Ying-jiez，XU Hong-wei1.Institute of Agricultural Remote Sensing and Information Technology Application，Zhejiang University，Hangzhou 310058，China2.Zhejiang Soil and Fertilizer Station，Hangzhou 310020，ChinaAbstract The present paper tried to evaluate the effectiveness and improvement of variable selection before modeling with partialleast squares regression(P5R).Based on the independent test dataset，and compared with the PLSR model derived from allspectral variables，the prediction accuracy by modeling after variable selection has been improved.Thus，the results showed thatvariable selection was beneficial and necessary for soil carbon modeling by on-the-go NIRS.UVE (uninformative variable elimi-nation)and UVESPA(successive projection algorithm)could perform effective variable selection and created promising models，and SPA and GA-PLS(genetic algorithm PLS)failed to make appropriate models.For synergy interval PLS(siPLS)，change ininterval number and number of interva1 for modeling could affect the prediction accuracy obviously.Promising models could bemade by selecting appropriate interval number and number of interval for modeling ，and siPLS could achieve similar predictionaccuracy to UVE or UVESPA。and the shortcoming was that siPLS required a lot of computing time to find optima 1 combination]]]]]]]]]]]] 1 朝互I伽rL rL rL rL rL rL rL rL rL rL [ rL 1780 光谱学与光谱分析第 33卷of intervals for modelingKeywords On-the-go measurement；Near-infrared spectra；Soil carbon；Partial least square regression；Variable selection(Received Oct.31，2012；accepted Feb.25，2013)《光谱学与光谱分析》投稿简则《光谱学与光谱分析》是由中国科协主管，中国光学学会主办，钢铁研究总院、中国科学院物理研究所、北京大学、清华大学共同承办的专业学术期刊。国内外公开发行，从2004年起为月刊，大16开本，2013年仍为月刊，每期292页。《光谱学与光谱分析》主要报道我国光谱学与光谱分析领域内具有创新性科研成果，及时反映国内外光谱学与光谱分析的进展和动态；发现并培育人才；推动和促进光谱学与光谱分析的发展。为科教兴国服务。读者对象为从事光谱学与光谱分析的科研人员、教学人员、分析测试人员和科研管理干部。

栏目设置和要求1.研究报告要求具有创新性的研究成果，-般文章以8000字(包括图表、

文件列表

正在加载...请等待或刷新页面...

发表评论

更多..相关推荐

更多..最近更新