遗传模拟退火算法在玉米秸秆纤维素含量检测中的应用
时间:2020/1/23 6:27:11 浏览量:
通过近红外光谱法预测了桂花茎中的纤维素含量。于近红外光谱的高维和高相关特性,建立秸秆纤维素d的偏最小二乘预测(PLS)模型时的特征波长筛选问题'桂花已经被讨论过了。先,组合区间偏最小二乘法(SIPLS)和后区间偏最小二乘法(BIPLS)的区间分割数对算法效果的影响。论。SIPLS和BIPLS的基础上,采用遗传特征退火算法(GSAA)进行二次特征波长筛选,进一步提高了预测精度和建模效率。型。果表明,与PLS方法相比,单独使用这三种算法可以提高所构建模型的预测精度,但是SIPLS和BIPLS算法的效果受区间划分数目的影响很大。管BIPLS模型的预测集的均方误差(RMSEP)最小,但是所选变量的数量却可以达到485,这会影响模型的建模效率。GSAA基于SIPLS和BIPLS,用于二级特征波长筛选。BIPLS相比,BIPLS-GSAA模型的RMSEP略有增加,但其输入变量减少到134,并且建模的主要组件数也从11减少到10。SIPLS相比,SIPLS-GSAA模型没有只有34个输入变量,并且预测的准确性得到了提高。验结果表明,SIPLS-GSAA模型具有最佳的预测效果。
SIPLS和BIPLS上基于GSAA的光谱数据的二次筛选不仅可以简化模型输入,而且可以有效地提高模型的预测能力。花是中国粮食生产的主要农作物之一,其面积和产量均居中国首位。花高产,还产生了巨大的桂花茎资源,桂花茎资源的合理利用对我国农业的可持续发展具有重要意义。前,秸秆的总体使用主要分为五类:化肥,动物饲料,原料,燃料和原料[1]。花秸秆的木质纤维素用于动物饲料工业,造纸工业以及生物质能的开发和利用。是非常重要的。于纤维素是桂花秸秆的主要成分,因此要充分利用桂花秸秆,准确预测桂花秸秆的纤维素含量至关重要。前,测量纤维素的主要方法仍然是化学方法,包括Van Soest方法[2],Wang Yuwan方法[3]和高效液相色谱[4]。些传统的化学方法具有复杂的测量过程。重,测量周期长且人工成本高。此,为了提高桂花秸秆的综合利用效率,有必要寻找一种简单,有效,无损的方法,可以准确地从桂花秸秆中预测纤维素。'桂花。红外光谱分析方法简单,快速,非常精确[5],已广泛用于石油[6],医疗[7],食品[8]和木材[ 9]。维素是由葡萄糖组成的大分子多糖,具有大量包含氢和C-H的化学键。据近红外光谱分析技术的原理,近红外光谱技术可用于预测收割秸秆中的纤维素。1980年代,研究人员开始应用近红外光谱分析技术研究收割秸秆的主要成分,重点是寻找秸秆的食物,主要是蛋白质和干物质[10-12]。秸秆成分进行了深入研究,许多研究人员已开始将研究重点转移到工业化,能源等方面,主要是在秸秆中寻找右旋糖酐,木聚糖和木质素[13]。〜15]。前的研究主题包括桉树等。[16,17]已经建立了偏最小二乘回归(PLSR),非线性支持向量机和人工神经网络模型,波数选择方法主要是人工的。择方法[17,18]也已经在文献中报道,使用用于选择特征波长的算法(连续投影算法和回归系数方法等[19,20])。动选择方法需要充分了解化学键与近红外光谱吸收区域之间的关系,尤其是对于检测桂花茎中纤维素含量的模型,该模型是在经过化学处理后直接建立的。光谱预处理[14]。
前,利用近红外光谱分析技术对桂花茎的研究主要集中在农业上,桂花茎的纤维素模型是经过预处理后直接建模的[21〜23 ]。秆收割的能量转化研究已成为世界范围内的热点,秸秆收割的纤维素不仅是生物质能源生产的关键原料,而且是生物质生产的重要原料。多工业产品。物质能的发展非常重要。此,有必要建立一种预测效果好,检测速度快的桂花干纤维素的预测模型。研究以桂花茎为研究对象,采用近红外光谱分析和PLSR分析技术建立了桂花纤维素含量预测模型。最小局部返回间隔平方(BIPLS)和模拟遗传退火算法(GSAA)3种波长选择算法来选择有关特征的信息,减少数据的大小并最终建立优化简单的桂花秸秆纤维素模型,具有良好的预测性能。TANGO近红外光谱仪(德国布鲁克)用于获取红外光谱数据。器的分辨率为8 cm1,波数范围为11542×3940 cm1。仪器的测量平台配有一个内径为4.5厘米,高为5厘米的采样杯。用CAMO的Unscrambler X10.3和MathWorks的Matlab2016a分析了数据。验所需的桂花秸秆样品来自2017年东北农业大学试验基地,干燥后,将桂花秸秆的不同部位压碎,得到189份秸秆样品。 花。个样品分为两部分,一部分使用范式方法[24]测量桂花秸秆样品中纤维素的化学值,另一部分用于收集光谱数据。每个样品装入仪器测试台上的样品杯中,确保样品杯中样品的厚度约为1.5厘米,将样品杯放在仪器的测试台收集近红外光谱,收集3次并收集最终光谱,取3次采集的平均值。用蒙特卡罗方法[25](MCCV)从获得的189个桂花茎的近红外光谱数据中消除6个离群值,最终获得183个实验样品的近红外光谱,然后将SPXY以2:1的比率使用算法[26]将校正集和预测集分开。1中显示了样本校正集和预测集的纤维素含量分布。于BIPLS和SIPLS算法会根据以下特征来选择特征波长:在特征间隔内,总是在频带选择过程中选择一些干扰信息,并选择更多的波长点。中,BIPLS选择了485个波长点,而SIPLS选择了146个波长点。 此,为了进一步去除冗余信息,减小数据量并提高模型的预测能力,基于上述两个特征带选择算法,GSAA用于执行对所选数据进行二次过滤。选后的波长点分别减少到154和34,将与选定的最终波长点相对应的光谱数据用作PLS的输入变量,并且将其中的纤维素含量对桂花秸秆的香气进行PLS回归建模。4列出了由FULL-PLS,SIPLS,BIPLS,GSAA,SIPLS-GSAA和SIPLS-GSAA建立的六个模型的相关参数。应于五种波长选择方法的波长选择结果如图3所示。表4所示,与全光谱FULL-PLS模型相比,五种波长选择算法特征波长的选择可以有效地提高模型的预测能力,对模型的最终评价主要从三个方面进行衡量:模型性能参数和模型波长点数和特征模型波长点的分布。先,评估由两个频带选择算法SIPLS和BIPLS建立的模型:模型性能参数,BIPLS-PLS模型的RMSEP为0.8400,其预测性能参数优于SIPLS模型-PLS;建立模型的波长点数,BIPLS-PLS模型有485个波长点,而SIPLS-PLS模型有146个波长点。然,SIPLS模型具有较少的波长点,从图2A和2B可以看出该模型的波长点的分布。SIPLS选择的波长大多数点分布在第二个八度音阶中的一个频率区域,结合了很强的光谱带,而BIPLS的波长点分布广泛,并且波长点也分布在吸收峰较低的第三个八度音程区域中。GSAA-PLS模型与SIPLS-PLS和BIPLS-PLS模型进行比较,尽管GSAA-PLS的波长点数仅为130,但模型性能参数较差,并且如图2C所示,波长点的分布最宽。过比较SIPLS-GSAA和BIPLS-GSAA,SIPLS-GSAA模型的性能更好,模型的波长数更低,分布范围更集中(图2D)。后,将SIPLS和BIPLS的两个模型与SIPLS-GSAA和BIPLS-GSAA的两个模型进行比较,该模型的最佳性能参数为BIPLS,BIPLS-PLS和SIPLS-PLS。三个模型的性能参数差别不大,但是BIPLS模型具有最大数量的波长,约为SIPLS-GSAA模型的14倍,并且具有最宽的波长分布。然BIPLS-GSAA的波长点数已减少到154,但其波长点数约为SIPLS-GSAA的5倍,其模型的性能参数更差高于SIPLS-GSAA。长点的分布与BIPLS相似,但分布较宽。而言之,GSAA算法可以有效地提取特征波长,但是单独使用时效果并不明显。用于SIPLS和BIPLS的二次波长选择时,可以有效地改善模型的性能。然单独使用BIPLS可以获得更好的模型性能参数,但由于选择了更多的间隔[35],波长点的数量大大增加了,这影响了光轴的性能。型的计算速度快,并且波长点的分布比较宽。利于模型的实际应用。SIPLS可以在几个区域中定位选择间隔,这大大减少了波长点的数量,但是它选择的连续间隔中的冗余信息减少了模型的性能参数[36]。GSAA基于SIPLS,以连续的间隔高效选择离散的波长点。立的SIPLS-GSAA-PLS模型具有良好的性能参数,建模的数据波长点数量少。型的波长点主要集中在第二个八度音程中直至组合频率。此,该模型不仅可以减少模型的预测时间,而且有利于后期的实际应用。用近红外光谱技术对黑龙江省桂花茎中的纤维素含量进行了研究,建立的桂花茎中的纤维素模型可以快速有效地评估和分析茎中的纤维素含量。龙江省的桂花,这有利于更有效地利用桂花茎中的纤维素。红外光谱分析技术在桂花秸秆纤维素含量预测中的应用为提高采收秸秆的总利用率提供了新思路。 来。SIPLS和BIPLS方法的筛选结果受间隔数k的影响。未找到有效的方法来快速找到最佳k值,本研究仅讨论了三种特征波长筛选方法。此,在进一步的研究中,应该研究特征波长算法对桂花茎纤维素模型的影响,以及通过SIPLS和BIPLS对k值的快速定位。Norgaard等基于偏最小二乘间隔法[28](偏最小二乘间隔,IPLS)。[27]分别在2000年和2004年提出了SIPLS和BIPLS波长选择算法。种算法都被广泛使用。IPLS首先将整个频谱划分为k个区间,然后对每个区间执行部分最小二乘回归,以获得k个回归模型。用交叉验证方法计算k个模型的交叉验证的均方误差(RMSECV),并比较每个模型的RMSECV值。具有最小RMSECV的间隔相对应的回归模型是最佳模型。BIPLS和SIPLS基于IPL k分区间隔对子间隔执行不同的操作[29]。BIPLS首先删除k个间隔中相关性最小的间隔,并为其余k-1个间隔建立PLS模型。后,再次消除其余k-1之间的最小相关间隔,为其余k-2建立PLS模型,依此类推,直到只剩下一个间隔为止。个PLS模型的RMSECV值是评估指标,与最小RMSECV对应的间隔组合是最佳间隔。SIPLS随机选择j(2≤j≤k)个间隔以形成一个公共间隔,以便在k个划分的间隔中建立PLS模型。共建立了Cjk PLS模型,与最小RMSECV值相对应的j个间隔的组合是最佳间隔。统的遗传算法容易出现局部最优解,收敛速度慢等问题,而模拟退火算法具有跳过局部最优解的特点,两者可以相互补充。[30]。外,GSAA用于近红外光谱的特征波长选择较少[31],主要用于优化调度问题[32、33]。这项研究中,GSAA用于优化近红外光谱中特征波长点的选择,控制参数为:最大种群大小为30,最大遗传世代设置为将选择操作的发电差设为100,将初始退火温度系数T0设为100。却系数设为0.8。GSAA选择特征波长的过程主要分为三个部分:首先初始化总体,并计算初始总体的目标函数和初始温度的值,目标函数的值为PLS回归模型的RMSECV值,且初始温度为T0×(最大目标函数的值-最小目标函数值);其次,对生成的种群进行选择(轮盘赌算法),交叉(离散重组),突变(离散突变)和复制操作(Metropolis);最后,算法进行迭代以满足终止条件(最大遗传代数为100),选择最佳特征波长点。SIPLS和BIPLS算法都是特征间隔选择算法,虽然通过选择的特征间隔建立的模型效果很好,但是选择的波长点很多,并且是不仅可以使用GSAA特征波长点选择算法。选特征间隔的大小减小了,离散波长选择可以去除连续间隔中的多余和无效的波长点。此,本研究使用GSAA对SIPLS和BIPLS分别选择的特征区间进行二次筛选。GSAA是随机搜索算法。此,GSAA循环定义为100次。过反复实验,选择重复选择大于54的波长。 用作纤维素模型的输入。1是183个实验桂花样品的近红外光谱,范围为11542〜3940 cm1。1显示了实验样品的吸收光谱严重重叠,并且在采集过程中样品的近红外光谱受到近红外光谱仪和其他背景的干扰。得的光谱信息包含很多噪声[34],因此首先要层压光谱数据。滑产品(Savitzky-Golay,SG)可以消除高频噪声。立近红外光谱模型时,浓度矩阵也会影响光谱数据。此,为了从光谱数据和要测量的分量中消除无关信息,使用正交信号校正(OSC)来延续样本的光谱数据。 行预处理。品的近红外光谱非常相似,纤维素含量与各个波长点的吸光度之间的关系无法直接从光谱图中确定。此,应选择适当的范围来建立数学模型,以确定近红外光谱与纤维素含量之间的关系。系。图1中,11542和8000 cm1之间的间隔在CH和其他链路的第三频带中,吸收率低,噪声干扰大。CH和其他键的组合频率区域的第二个频率为8000至3940 cm1,并且有几个吸收峰。收强度大,具有明显的特征变化,这可能反映了样品的性质和组成之间的相关性。此,在建立真实模型时,必须对光谱数据进行分段,以基于近红外光谱区域中不同基团的吸收特性建立校正模型,以便找到最佳的建模区域。花干纤维素。处理的光谱数据分为k个子间隔(k = 10、20、30、40、50、60、70)。于k的每个值,表2中的数字1-7显示了使用BIPLS选择的实体子间隔。表2可以看出,桂花树价格当k = 50时,对应的交互验证的对应的RMSECV二次误差最小;当k = 60时,其RMSECV值与k = 50相比略有增加,因此假定在50〜60 k之间应有一个最佳值。了进一步确定k的最佳值,在50和60之间进行一次扩展,也就是说k的值在51到59之间变化。IPLS子间隔的最佳结果是在表2中用数字8到16表示。表2所示,最终的最佳k值位于53,相应的RMSECV最小(0.8822),并且选择了波长点是485。于SIPLS,光谱数据分为子间隔。隔数k的值为10、20、30、40、50、60、70。择随机子间隔j的组合数(j = 3、4)[16],当k和j时表3给出了SIPLS选择的特征子区间的结果。表3所示,当k = 50和j = 4时,交互式验证的相应RMSECV平方误差相应的是最小的(0.9537),选定的波长点的数量是146。表2所示,在选择SIPLS的特征频带的过程中,选择值k和j的值将极大地影响SIPLS。于Cjk模型的操作限制,j的值不应太大,通常不超过5,并且随着k的值增加,计算的模型数将很大,从而导致数量巨大SIPLS计算。样,BIPLS波长也受k值影响,有时甚至选择了大量不相关的信息,并且预测模型效率不高。此,当使用BIPLS和SIPLS算法时,选择合适的k值对于功能信息的选择和具有良好预测性能的模型的构建非常重要。
本文转载自
桂花树价格 http://m.guihua99.net/m/
SIPLS和BIPLS上基于GSAA的光谱数据的二次筛选不仅可以简化模型输入,而且可以有效地提高模型的预测能力。花是中国粮食生产的主要农作物之一,其面积和产量均居中国首位。花高产,还产生了巨大的桂花茎资源,桂花茎资源的合理利用对我国农业的可持续发展具有重要意义。前,秸秆的总体使用主要分为五类:化肥,动物饲料,原料,燃料和原料[1]。花秸秆的木质纤维素用于动物饲料工业,造纸工业以及生物质能的开发和利用。是非常重要的。于纤维素是桂花秸秆的主要成分,因此要充分利用桂花秸秆,准确预测桂花秸秆的纤维素含量至关重要。前,测量纤维素的主要方法仍然是化学方法,包括Van Soest方法[2],Wang Yuwan方法[3]和高效液相色谱[4]。些传统的化学方法具有复杂的测量过程。重,测量周期长且人工成本高。此,为了提高桂花秸秆的综合利用效率,有必要寻找一种简单,有效,无损的方法,可以准确地从桂花秸秆中预测纤维素。'桂花。红外光谱分析方法简单,快速,非常精确[5],已广泛用于石油[6],医疗[7],食品[8]和木材[ 9]。维素是由葡萄糖组成的大分子多糖,具有大量包含氢和C-H的化学键。据近红外光谱分析技术的原理,近红外光谱技术可用于预测收割秸秆中的纤维素。1980年代,研究人员开始应用近红外光谱分析技术研究收割秸秆的主要成分,重点是寻找秸秆的食物,主要是蛋白质和干物质[10-12]。秸秆成分进行了深入研究,许多研究人员已开始将研究重点转移到工业化,能源等方面,主要是在秸秆中寻找右旋糖酐,木聚糖和木质素[13]。〜15]。前的研究主题包括桉树等。[16,17]已经建立了偏最小二乘回归(PLSR),非线性支持向量机和人工神经网络模型,波数选择方法主要是人工的。择方法[17,18]也已经在文献中报道,使用用于选择特征波长的算法(连续投影算法和回归系数方法等[19,20])。动选择方法需要充分了解化学键与近红外光谱吸收区域之间的关系,尤其是对于检测桂花茎中纤维素含量的模型,该模型是在经过化学处理后直接建立的。光谱预处理[14]。
前,利用近红外光谱分析技术对桂花茎的研究主要集中在农业上,桂花茎的纤维素模型是经过预处理后直接建模的[21〜23 ]。秆收割的能量转化研究已成为世界范围内的热点,秸秆收割的纤维素不仅是生物质能源生产的关键原料,而且是生物质生产的重要原料。多工业产品。物质能的发展非常重要。此,有必要建立一种预测效果好,检测速度快的桂花干纤维素的预测模型。研究以桂花茎为研究对象,采用近红外光谱分析和PLSR分析技术建立了桂花纤维素含量预测模型。最小局部返回间隔平方(BIPLS)和模拟遗传退火算法(GSAA)3种波长选择算法来选择有关特征的信息,减少数据的大小并最终建立优化简单的桂花秸秆纤维素模型,具有良好的预测性能。TANGO近红外光谱仪(德国布鲁克)用于获取红外光谱数据。器的分辨率为8 cm1,波数范围为11542×3940 cm1。仪器的测量平台配有一个内径为4.5厘米,高为5厘米的采样杯。用CAMO的Unscrambler X10.3和MathWorks的Matlab2016a分析了数据。验所需的桂花秸秆样品来自2017年东北农业大学试验基地,干燥后,将桂花秸秆的不同部位压碎,得到189份秸秆样品。 花。个样品分为两部分,一部分使用范式方法[24]测量桂花秸秆样品中纤维素的化学值,另一部分用于收集光谱数据。每个样品装入仪器测试台上的样品杯中,确保样品杯中样品的厚度约为1.5厘米,将样品杯放在仪器的测试台收集近红外光谱,收集3次并收集最终光谱,取3次采集的平均值。用蒙特卡罗方法[25](MCCV)从获得的189个桂花茎的近红外光谱数据中消除6个离群值,最终获得183个实验样品的近红外光谱,然后将SPXY以2:1的比率使用算法[26]将校正集和预测集分开。1中显示了样本校正集和预测集的纤维素含量分布。于BIPLS和SIPLS算法会根据以下特征来选择特征波长:在特征间隔内,总是在频带选择过程中选择一些干扰信息,并选择更多的波长点。中,BIPLS选择了485个波长点,而SIPLS选择了146个波长点。 此,为了进一步去除冗余信息,减小数据量并提高模型的预测能力,基于上述两个特征带选择算法,GSAA用于执行对所选数据进行二次过滤。选后的波长点分别减少到154和34,将与选定的最终波长点相对应的光谱数据用作PLS的输入变量,并且将其中的纤维素含量对桂花秸秆的香气进行PLS回归建模。4列出了由FULL-PLS,SIPLS,BIPLS,GSAA,SIPLS-GSAA和SIPLS-GSAA建立的六个模型的相关参数。应于五种波长选择方法的波长选择结果如图3所示。表4所示,与全光谱FULL-PLS模型相比,五种波长选择算法特征波长的选择可以有效地提高模型的预测能力,对模型的最终评价主要从三个方面进行衡量:模型性能参数和模型波长点数和特征模型波长点的分布。先,评估由两个频带选择算法SIPLS和BIPLS建立的模型:模型性能参数,BIPLS-PLS模型的RMSEP为0.8400,其预测性能参数优于SIPLS模型-PLS;建立模型的波长点数,BIPLS-PLS模型有485个波长点,而SIPLS-PLS模型有146个波长点。然,SIPLS模型具有较少的波长点,从图2A和2B可以看出该模型的波长点的分布。SIPLS选择的波长大多数点分布在第二个八度音阶中的一个频率区域,结合了很强的光谱带,而BIPLS的波长点分布广泛,并且波长点也分布在吸收峰较低的第三个八度音程区域中。GSAA-PLS模型与SIPLS-PLS和BIPLS-PLS模型进行比较,尽管GSAA-PLS的波长点数仅为130,但模型性能参数较差,并且如图2C所示,波长点的分布最宽。过比较SIPLS-GSAA和BIPLS-GSAA,SIPLS-GSAA模型的性能更好,模型的波长数更低,分布范围更集中(图2D)。后,将SIPLS和BIPLS的两个模型与SIPLS-GSAA和BIPLS-GSAA的两个模型进行比较,该模型的最佳性能参数为BIPLS,BIPLS-PLS和SIPLS-PLS。三个模型的性能参数差别不大,但是BIPLS模型具有最大数量的波长,约为SIPLS-GSAA模型的14倍,并且具有最宽的波长分布。然BIPLS-GSAA的波长点数已减少到154,但其波长点数约为SIPLS-GSAA的5倍,其模型的性能参数更差高于SIPLS-GSAA。长点的分布与BIPLS相似,但分布较宽。而言之,GSAA算法可以有效地提取特征波长,但是单独使用时效果并不明显。用于SIPLS和BIPLS的二次波长选择时,可以有效地改善模型的性能。然单独使用BIPLS可以获得更好的模型性能参数,但由于选择了更多的间隔[35],波长点的数量大大增加了,这影响了光轴的性能。型的计算速度快,并且波长点的分布比较宽。利于模型的实际应用。SIPLS可以在几个区域中定位选择间隔,这大大减少了波长点的数量,但是它选择的连续间隔中的冗余信息减少了模型的性能参数[36]。GSAA基于SIPLS,以连续的间隔高效选择离散的波长点。立的SIPLS-GSAA-PLS模型具有良好的性能参数,建模的数据波长点数量少。型的波长点主要集中在第二个八度音程中直至组合频率。此,该模型不仅可以减少模型的预测时间,而且有利于后期的实际应用。用近红外光谱技术对黑龙江省桂花茎中的纤维素含量进行了研究,建立的桂花茎中的纤维素模型可以快速有效地评估和分析茎中的纤维素含量。龙江省的桂花,这有利于更有效地利用桂花茎中的纤维素。红外光谱分析技术在桂花秸秆纤维素含量预测中的应用为提高采收秸秆的总利用率提供了新思路。 来。SIPLS和BIPLS方法的筛选结果受间隔数k的影响。未找到有效的方法来快速找到最佳k值,本研究仅讨论了三种特征波长筛选方法。此,在进一步的研究中,应该研究特征波长算法对桂花茎纤维素模型的影响,以及通过SIPLS和BIPLS对k值的快速定位。Norgaard等基于偏最小二乘间隔法[28](偏最小二乘间隔,IPLS)。[27]分别在2000年和2004年提出了SIPLS和BIPLS波长选择算法。种算法都被广泛使用。IPLS首先将整个频谱划分为k个区间,然后对每个区间执行部分最小二乘回归,以获得k个回归模型。用交叉验证方法计算k个模型的交叉验证的均方误差(RMSECV),并比较每个模型的RMSECV值。具有最小RMSECV的间隔相对应的回归模型是最佳模型。BIPLS和SIPLS基于IPL k分区间隔对子间隔执行不同的操作[29]。BIPLS首先删除k个间隔中相关性最小的间隔,并为其余k-1个间隔建立PLS模型。后,再次消除其余k-1之间的最小相关间隔,为其余k-2建立PLS模型,依此类推,直到只剩下一个间隔为止。个PLS模型的RMSECV值是评估指标,与最小RMSECV对应的间隔组合是最佳间隔。SIPLS随机选择j(2≤j≤k)个间隔以形成一个公共间隔,以便在k个划分的间隔中建立PLS模型。共建立了Cjk PLS模型,与最小RMSECV值相对应的j个间隔的组合是最佳间隔。统的遗传算法容易出现局部最优解,收敛速度慢等问题,而模拟退火算法具有跳过局部最优解的特点,两者可以相互补充。[30]。外,GSAA用于近红外光谱的特征波长选择较少[31],主要用于优化调度问题[32、33]。这项研究中,GSAA用于优化近红外光谱中特征波长点的选择,控制参数为:最大种群大小为30,最大遗传世代设置为将选择操作的发电差设为100,将初始退火温度系数T0设为100。却系数设为0.8。GSAA选择特征波长的过程主要分为三个部分:首先初始化总体,并计算初始总体的目标函数和初始温度的值,目标函数的值为PLS回归模型的RMSECV值,且初始温度为T0×(最大目标函数的值-最小目标函数值);其次,对生成的种群进行选择(轮盘赌算法),交叉(离散重组),突变(离散突变)和复制操作(Metropolis);最后,算法进行迭代以满足终止条件(最大遗传代数为100),选择最佳特征波长点。SIPLS和BIPLS算法都是特征间隔选择算法,虽然通过选择的特征间隔建立的模型效果很好,但是选择的波长点很多,并且是不仅可以使用GSAA特征波长点选择算法。选特征间隔的大小减小了,离散波长选择可以去除连续间隔中的多余和无效的波长点。此,本研究使用GSAA对SIPLS和BIPLS分别选择的特征区间进行二次筛选。GSAA是随机搜索算法。此,GSAA循环定义为100次。过反复实验,选择重复选择大于54的波长。 用作纤维素模型的输入。1是183个实验桂花样品的近红外光谱,范围为11542〜3940 cm1。1显示了实验样品的吸收光谱严重重叠,并且在采集过程中样品的近红外光谱受到近红外光谱仪和其他背景的干扰。得的光谱信息包含很多噪声[34],因此首先要层压光谱数据。滑产品(Savitzky-Golay,SG)可以消除高频噪声。立近红外光谱模型时,浓度矩阵也会影响光谱数据。此,为了从光谱数据和要测量的分量中消除无关信息,使用正交信号校正(OSC)来延续样本的光谱数据。 行预处理。品的近红外光谱非常相似,纤维素含量与各个波长点的吸光度之间的关系无法直接从光谱图中确定。此,应选择适当的范围来建立数学模型,以确定近红外光谱与纤维素含量之间的关系。系。图1中,11542和8000 cm1之间的间隔在CH和其他链路的第三频带中,吸收率低,噪声干扰大。CH和其他键的组合频率区域的第二个频率为8000至3940 cm1,并且有几个吸收峰。收强度大,具有明显的特征变化,这可能反映了样品的性质和组成之间的相关性。此,在建立真实模型时,必须对光谱数据进行分段,以基于近红外光谱区域中不同基团的吸收特性建立校正模型,以便找到最佳的建模区域。花干纤维素。处理的光谱数据分为k个子间隔(k = 10、20、30、40、50、60、70)。于k的每个值,表2中的数字1-7显示了使用BIPLS选择的实体子间隔。表2可以看出,桂花树价格当k = 50时,对应的交互验证的对应的RMSECV二次误差最小;当k = 60时,其RMSECV值与k = 50相比略有增加,因此假定在50〜60 k之间应有一个最佳值。了进一步确定k的最佳值,在50和60之间进行一次扩展,也就是说k的值在51到59之间变化。IPLS子间隔的最佳结果是在表2中用数字8到16表示。表2所示,最终的最佳k值位于53,相应的RMSECV最小(0.8822),并且选择了波长点是485。于SIPLS,光谱数据分为子间隔。隔数k的值为10、20、30、40、50、60、70。择随机子间隔j的组合数(j = 3、4)[16],当k和j时表3给出了SIPLS选择的特征子区间的结果。表3所示,当k = 50和j = 4时,交互式验证的相应RMSECV平方误差相应的是最小的(0.9537),选定的波长点的数量是146。表2所示,在选择SIPLS的特征频带的过程中,选择值k和j的值将极大地影响SIPLS。于Cjk模型的操作限制,j的值不应太大,通常不超过5,并且随着k的值增加,计算的模型数将很大,从而导致数量巨大SIPLS计算。样,BIPLS波长也受k值影响,有时甚至选择了大量不相关的信息,并且预测模型效率不高。此,当使用BIPLS和SIPLS算法时,选择合适的k值对于功能信息的选择和具有良好预测性能的模型的构建非常重要。
本文转载自
桂花树价格 http://m.guihua99.net/m/