最常见的近红外光谱的预处理技术的综述

q5657600
3 ℃
2020-06-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

最常见的近红外光谱的预处理技术的综述smundRinnan，FransvandenBerg，SørenBallingEngelsen摘要：预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。最广泛使用的预处理技术可以分为两类：散射校正方法和光谱间隔方法。综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。其目的是提供更好的NIR最终模型的建立，在此我们通过对光谱的预处理基本知识进行梳理。关键词：乘法散射校正；近红外光谱法；标准化；诺里斯威廉姆斯推导；预处理；Savitzky-Golay平滑；散射校正；光谱导数;标准正态变量；综述1.引言目前为止，没有能够优化数据来进行代替，但是经过适当的数据收集和处理将会起到优化效果，对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模)，常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。在大量的文献中，多变量光谱应用食品、饲料和医药分析，比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。近红外反射/透射率(NIR/NIT)光谱的光谱技术，到目前为止最多被使用的和最大的多样性在预处理技术，主要是由于入非线性光散射的光谱可以引起显著影响。由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品，近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性)，这将会影响样品光谱的结果的记录。然而，通过应用合适的预处理，可以很大程度上消除这些影响。在应用研究中，比较了几乎完全不同的定标模型(定量描述符和相应关系)。几乎没有出现评估的差异和相似性的报道。替代技术即修正的含义(例如，谱描述符数据)在研究中很少被讨论。本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系，更具体地说，这些技术都是对应独立的响应变量，所以我们只讨论方法，不需要一个响应值。我们同时关注预处理工艺理论方面的和实际效果，这种方法适用于近红外光谱/NIT光谱。对固体样品，干扰系统的差异主要是因为光散射的不同和有效路径长度的不同。这些不受欢迎的变化常常构成了样本集的总变异的主要部分，可以观察到得转变基线(乘法效应)和其他现象称为非线性。一般来说，近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射(镜面反射)。镜面反射通常由仪表设计和几何的采样最小化，因为它们不含任何化学信息。这个diffusively反射的光，这反映在广泛的方向，是信息的主要来源在近红外光谱。然而，diffusively反射光将包含信息的化学成分不仅示例(吸收)而且结构(散射)。主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏。两者都是过程中电磁辐射是分散的(例如，通过小粒子，泡沫，表面粗糙度，水滴，晶体缺陷，microorganelles、细胞、纤维和密度波动)。当粒子尺寸大于波长，因为通常情况下，NIR光谱，是主要的洛仑兹米氏散射。相比之下，瑞利散射，是各向异性，洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性。对生物样品，散射特性是过于复杂，所以软或自适应补偿，光谱预处理技术，正如我们近红外光谱在本文中进行讨论，要求删除散射从纯粹的、理想的吸收光谱。显然，预处理不能纠正镜面反射率(直接散射)，自谱不包含任何精细结构。光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析，因为他们仍将是局外人，甚至在预处理。图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜面反射率表现比正常的光谱。图1还演示了总体布局的大多数数据在本文中。上部的图，一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]。下面部分显示预处理效果的数据集(或者，在这种情况下，任何预处理)。相关系数r的平方值之间的酒吧和一个选定的参考变量包含(在本例中，已知的平均粒径的13蔗糖样本)。蔗糖的数据集，这种关系应该是低，例如，当假设散射是一种阻碍粒子始发;尽可能小的信息的粒度应该保持在正确的预处理。图1近红外光谱的13蔗糖和样品不同粒径(最小的粒子在底部，最大的顶部;粒子尺寸范围在20-540lm。黑色的光谱显示了一个镜面反射率蔗糖样本。酒吧是分数值第一主成分的13个蔗糖样品主成分分析模型在完整的光谱。一个示例数据的预处理蔗糖中可以看到图2，其中也包含一个其实的一个示例数据预处理的蔗糖中可以看到图2，其中也包含一个其实从现在起，在这篇文章中，我们将演示效果不同的预处理技术在小果胶数据集只包含7个样品有不同程度的酯化(%德;范围在0-93%)[2]。这些样品测定近红外光谱反射率模式在光谱范围1100-2500海里(收集每2海里区间;图3)。我们提供相应的第一因素PCA样本得分后作为一个条形图意味着定心，连同集中吸光度值在波长2244纳米。我们选择这个峰值，因为它在理论上应该描述%DE完美。对于本文，我们假设信息在光谱相联系的果胶粒子大小和形状应该被预处理技术，条形图应该显示一个线性行为与%德。为了说明预处理的影响在量化，我们使用数据取自克里斯腾森etal。[3]。他们研究了一组32杏仁蛋白软糖混合物，基于不同的食谱，九个不同的数据都在互联网上可用的(。模型的生活kudk)。所有的杏仁蛋白软糖样品测定了六种不同的近红外光谱仪器和化学参考分析了水分和糖含量。在构建一个定量的回归模型，重要的是要打扫预测数据从非系统性散射变化，因为他们可以产生重大影响的预测模型的性能和模型的复杂性或吝啬。在本文中，我们使用请预测这种定量响应信息[4]。2.预处理方法图2上图：数据被一个二阶蔗糖乘法散射校正;底：相应的标准差每个波长，虚线是原始/未加工的数据(见图1)，固体是预处理的数据。最广泛使用的预处理技术在近红外光谱法(在两个反射和透射模式)可以分为两类：scattercorrection方法和光谱衍生品。第一群散射校正预处理方法包括乘法散射校正(MSC)，逆MSC，扩展MSC(EMSC)，扩展逆MSC，de趋势，标准正态变量(SNV)和标准化。图3生/未加工的光谱，7果胶样本。蓝线是一个示例有0%程度的果胶酯化(DE)，红色的线是一个样本93%德。打开条指示主成分分析(PCA)评分值在第一个PC为完整的光谱，意味着定心，关闭了酒吧后的光谱值在波长2244纳米。光谱推导集团是为代表的两种技术在本文中：诺里斯威廉姆斯(NW)衍生品和Savitzky-Golay(SG)多项式导数过滤器。这两种方法都使用一个平滑的光谱导数计算之前，以减少有害的影响，传统的信噪比有限差分衍生品会。预处理步骤的目标可以三种：1）提高后续探索性分析2）提高后续叠层校正模型(力数据服从兰伯特啤酒法律);或者，3）提高后续的分类模型。朗伯比尔定律(方程(1))是经验对近红外光谱/NIT和显示成线性关系，吸收光谱和浓度(s)的成分(s)：10log()ATlc(1)其中A作为吸光度，依赖波长的摩尔吸光系数，l代表光通过容器有效的路径长度，是c成分的浓度。朗伯比尔定律严格有效的只有纯透射系统没有散射。在反射率测量，方程(1)是重新定义在类比透射率的测量为：10log()ARlc其中，R是反射率。选择合适的预处理应该总是被认为是相对于连续建模阶段。例如，如果数据集的兴趣不遵守法律，额外因素兰伯特啤酒或组件在请回归通常可以弥补这一理想的行为的光谱预测[5]。的缺点包括额外的因素是提高模型的复杂性，反过来，最有可能减少对未来预测的模型的鲁棒性。所有的预处理技术的目标减少变化降低数据以增强特性寻求在光谱，常常一个线性(简单的)关系现象(比如，一个成分)的兴趣。通过使用一个合适的预处理技术，这可以实现，但总是有危险的应用了错误的类型或应用太严重的预处理，将移除有价值的信息。正确的选择的预处理是很难评估模型验证之前，但是，一般来说，执行几个预处理步骤是不可取的，作为最低要求，预处理应保持或降低复杂性的有效模型。图4样品光谱(蓝色的点)密谋反抗一个选定的参考光谱。标量修正条款发现随着拦截和边坡的黑色线条，就是发现从最小二乘回归适合通过所有的点。3.散射校正根据散射校正方法，我们考虑三个预处理的概念：硕士，SNV和标准化。这些技术是为了减少(物理)可变性样本之间由于散射。所有三个也调整基线样本之间的变化。3.1MSC乘法散射(或者，在一般情况下，信号)校正(MSC)可能是最广泛使用的预处理技术对近红外光谱(紧随其后SNV和派生)。MSC其基本形式是由Martens首次引入等人1983年[6]，并进一步阐述了通过Geladi等人1985年[7]。MSC背后的概念是，工件或缺陷(如，不良的散射效应)将被删除的数据矩阵之前，数据建模。MSC包含两个步骤：1)估计的校正系数(加法和乘法的贡献。0,1orgrefrefXbbXe(2)2)校正记录的光谱0,1,1orgcorrrefrefrefXbeXXbb(3)其中：orgX代表近红外光谱仪器对一个原样品进行光谱测量，refX代表参考光谱用于预处理的整个数据集，e是降低的一部分的orgX，corrX代表了修正后的光谱，其中0b和,1refb都是标量参数，这在每个样品中具有不同的代表含义，这个在图4中进行说明，对每个标量参数进行了解释。在大多数应用中，平均频谱的校准设置用作参考光谱。然而，一个通用参考光谱也可以应用。在最初的论文Martensetal。[6]，这是建议只使用那些部分光谱轴，不包括相关信息(基线)。而这使得好的光谱意义上说，很难确定这些地区在实践中，特别是在近红外光谱测量，信号从不同的化学成分是强烈重叠和相关，很少或根本没有真正的基线是发现。这是为什么，在大多数情况下，整个频谱用于查找标量校正参数在MSC。图5演示了应用程序的标准MSC对果胶的数据。光谱特征的果胶粉是守恒的，而背景偏移和斜坡基本上是删除(与图3)。的线性关系光谱和%德是不错，但它并不完美。图5数据预处理的乘法散射校正用一阶校正对平均频谱。基本形式的MSC已经扩展成更复杂的扩展(8-12)通常被称为EMSC。这个扩展包括二阶多项式拟合参考光谱，拟合的一个基线的波长轴，和利用先验知识从光谱的兴趣或光谱干扰物。在本文中，所有这些替代品被称为MSC为简单起见，因为他们可以总结为一个单一的方程：22,1,21,,,,,...orgrefrefknownknownXXXXXbe（4）其中，代表依赖波长轴的修正向量，,1knownX包含先验知识包括了想要/不必要的光谱信息（比如一个已知的光谱干扰的物种）。方程(4)可以轻易地扩大到包括任何其他任何具有适当意义的修正。b代表了一组标量(校正系数)给出了方程(5)。0,1,2,1,2,1,2,,,,,,...refrefknownknownbbbbbbbb（5）其中：0b偏差校正,1refb是根据thi的修正,1b改正对我,1knownb是对thi校正订单波长轴依赖，,1knownb是纠正第i已知信息吗相比方程(2)，它可以观察到方程(4)只是一个高阶扩张之一的想法。在本文中,1knownX将不再做进一步的讨论，因为，在很多实际情况，参考光谱对想要的和不必要的成分并没有现成可用的。参考校正是最常用的方法只有一个一阶多项式。即使没有数学限制扩大到高阶增加，有通常没有光谱参数这样做(除了也许如果重要的瑞利散射是出现在短的波长区域。图6显示了结果的一个二阶多项式校正的果胶数据。修正条款用于二阶多项式参考校正只是发现了拟合二阶(二次)多项式的点在图4。只有边际改进取得了比一阶修正在图5。波长轴的依赖是最常包括作为一个二阶多项式拟合的波长轴的光谱。当没有参考校正包括在内，这个简单的波长配件也的名义光谱de趋势[13]，它可以被视为一个基线校正。重要的是要注意，包括波长依赖性在完整的校正方程(4)而不是让它作为一个单独的步骤会导致一个较小的矫正效果。这是由于一个矩阵求逆操作同时执行所有