当前位置: 迅达文档网 > 范文大全 > 征文 >

基于k—means聚类挑选特征样品建立烟草近红外光谱模型

| 来源:网友投稿

材料

AntarisⅡ傅里叶变换NIR光谱仪(美国Thermo Nicolet公司,配有积分球漫反射采样系统、Result操作软件、TQ Analyst分析软件);625烘箱(德国FREAS公司);AA3连续流动分析仪(德国SEAL公司)。青州标样对照品(中国烟草总公司青州烟草研究所),蒸馏水,其余试剂为分析纯。

2.方法

2.1 樣品的制备

以2014烤季云南烟叶复烤公司所属10个复烤厂(石林厂、泸西厂、麒麟厂、大理厂、楚雄厂、文山厂、保山厂、师宗厂、宣威厂、陆良厂)的烤烟为示范性研究对象。样品来自云南省不同地区、不同品种、不同等级、不同部位的烤烟,样品共计1534个,用粉碎机粉碎,过40目筛,样品装入密封袋中,在低温(0~4℃)条件下密封避光保存。

2.2 6项化学指标标准值的测定

分别采用行业标准《烟草及烟草制品 钾的测定 连续流动法》YC/T 217-2007,《烟草及烟草制品 氯的测定 连续流动法》YC/T 162-2011,《烟草及烟草制品 总氮的测定 连续流动法》YC/T 161-2002,《烟草及烟草制品 水溶性糖的测定 连续流动法》YC/T 159-2002,《烟草及烟草制品 总植物碱的测定 连续流动法》YC/T 160-2002,对烟草样品进行6项指标的检测。

2.3 光谱采集

取预先制备好的烟草样品,装入样品杯中,利用积分球漫反射采样系统采集其NIR光谱。光谱采集条件:以仪器内置背景为参比,波数范围10000~3800cm-1,扫描次数为64次,分辨率为8cm-1,见表1。

2.4 k-means聚类分析原理

k-means聚类算法是一种以距离为相似性依据的聚类方法,本研究在对近红外光谱的主成因子进行欧氏距离计算,距离公式如式(1)所示。

其中:d为距离,P为主成分,下标a,b代表样品编号,下标i代表第i维主成分因子。

之后对距离进行聚类,该聚类算法流程如图1所示。

本研究取烟草的近红外光谱贡献率超过95%的前6维主成分因子,代入k-means矩阵算法中进行聚类计算。聚类后从每类中选取一个样品光谱作为代表性样品参与建模。

本实验共采集样品光谱1534条,使用k-means聚类选取的特征样品光谱415条。

3.1 定量校正模型中检测指标的统计描述

表2为复烤行业主要化学指标常规方法检测的标准值的统计描述。建立模型时全部样品都用作校正集。由表2可知,校正集样品化学指标的含量范围较宽,且含量分布均匀。

3.2 光谱数据的处理

烟草是一种复杂的天然产物,其近红外光谱中谱峰重叠严重,因此建模前通常采用导数处理来消除光谱基线的平衡、漂移及平缓背景的干扰,但同时导数处理也放大了光谱信号,噪声信号也被放大,因此在对原始光谱求导前,首先对光谱数据进行平滑处理,然后分别考察原始光谱、一阶导数和二阶导数光谱对所建校正模型的影响。

从图2和图3对比可以看出,光谱数据经过导数处理后,可消除基线偏移,扣除本底吸收,从而更为细致地反映样品的光谱特征。

经过Norris导数平滑滤波后的光谱数据分别经多元散射校正技术(MSC)和标准正态变量变换技术(SNV)处理后,又分别考察了原始光谱、一阶导数和二阶导数光谱对所建校正模型的影响,并采用偏最小二乘(PLS)回归法建立定量校正模型。考察结果如图4所示,图4为RMSEC/R的比值做的折线图。由于校正集样品的校正标准偏差(RMSEC)越小,相关系数(R)越大,说明模型优化的越好,所以RMSEC/R值越小,模型效果越好。从图4看出,总糖、烟碱、总氮、钾的预测模型采用SNV处理光谱并对光谱进行二阶导数后建立的模型的RMSEC/R值最小;还原糖、氯的预测模型采用SNV处理光谱并对光谱进行一阶导数后建立的模型RMSEC/R值最小。

3.3 定量校正模型的建立

应用TQ Analyst分析软件中的偏最小二乘回归(Partial least-square regression,PLS)算法,把采集的近红外漫反射光谱与标准方法测定的烤烟水溶性总糖、还原糖、烟碱、总氮、氯、钾的标准值,全部用做校正集来建立定量校正模型。由于PLS主因子数关系到模型的稳定性,主因子选取太小会丢失有用信息,包含过多噪音,出现“欠拟合”,太大则会出现“过拟合”,因此,本研究按留一交叉验证的方法确定最终的偏最小二乘因子数。采用校正标准偏差(Standard error of calibration,SEC)、外部验证均方差即预测标准偏差(Standard error of prediction, RMSEP)、交叉验证均方差(RMSECV)和决定系数(R2)对PLS模型的性能进行评价。RMSEC和RMSEP越小,R越大,表示模型的性能越好。所有参数的计算方法见文献。校正模型初步建立以后,需要对模型进一步优化,即用不同的样品检验模型,剔除建模样品中的异常值,修改建模的谱区和其他参数,以提高模型的稳定性和可靠性。本研究采用最直观、最简单的判别方法对异常值进行剔除,即用外部验证样品的真实值和拟合值(Ture/Fit)的散点图进行查看,并结合马氏距离和杠杆值等联合判断,采用交叉验证(Cross validation)逐步剔除这些强影响点。

3.4 PLS主因子数的选择和交叉验证结果

采用PLS法建立定量校正模型时,为避免出现“过拟合”现象,需要对主因子数进行合理选择。本研究采用留一交叉验证法,考察了主因子数对RMSECV的影响如图5所示。由图中可以看出,PLS主因子数依次为总糖17,还原糖18,烟碱18,总氮19,氯18,钾21。

3.5 模型的外部验证

模型自身的外部验证:将建立的定量校正模型用于对云南烟叶复烤公司所属10个复烤厂挑选出的不同地区、不同品种、不同部位、不同等级的60个样品进行6项化学指标的预测。预测值和标准值有较低的预测均方差和较高的相关系数(表3)。

与用大量样品建立的成熟模型的对比验证:为了进一步验证模型的准确性,本研究还选取一些验证样品与其他单位用大量样品建立的成熟的模型进行预测对比,预测样品数为40个,同样得到了较低的预测均方差和较高的相关系数(表4)。同时,预测结果使用t检验方式进行检验。假设两种方法建立的预测模型检测的6项化学指标的均值在风险水平α=0.05时,计算得到的t值均小于t临界值,则说明两种方法建立的预测模型的检测结果无显著差异。由表4看出,6项化学指标的t检验值均小于临界值,两种方法建立的模型检测结果无显著差异,说明挑选特征样品建立的模型和使用大量样品建立的模型分析效果一致。

结论

采用k-means聚类分析选择特征样品光谱,用PLS法建立了烟草常规化学指标的近红外定量预测模型,并用未参与建模的众多样品进行了外部验证,验证的均方差(RMSEP)分别为总糖1.71,还原糖1.35,烟碱0.18,总氮0.28,氯0.14,钾0.32。与用原始方法建立的成熟模型相比,验证均方差均在0.9403以上,两种的检测结果也无显著差异。由此说明,本研究采用k-means聚类分析挑选特征样品建立近红外光谱模型的方法解决了实际建模过程中需要大量化学实验数据的这一瓶颈,所建立的烟草近红外光谱模型可运用于烟草化学6项化学指标的快速检测。为了使模型具有更宽的检测范围,本研究还在收集不在模型范围内的检测数据。从而获得更完善的模型,指导复烤行业生产过程质量的在线监测,为实现复烤行业均质化生产模式提供了理论依据。

参考文献

[1]滑荣,韩建国,齐晓,等.近红外漫反射光谱法预测紫花苜蓿草颗粒营养价值[J]. 光谱学与光谱分析,2008(12):2826-2829.

[2]陈昭,吴志生,史新元,等. Bagging 偏最小二乘和 Boosting 偏最小二乘算法的金银花醇沉过程近红外光谱定量模型预测能力研究[J].化学分析,2014(11):1679-1686.

[3]王冬,闵顺耕,曹金莉,等.温度对烟草总植物碱近红外定量分析模型的影响[J].中国烟草科学,2013-08,34(4):103-106.

[4]王家俊,梁逸曾,汪帆.偏最小二乘法结合傅里叶变换近红外光谱同时测定卷烟焦油、烟碱和一氧化碳的释放量[J].化学分析,2005(6):793-797.

[5] Balabin R M, Safieva R Z. Biodiesel classification by base stock type (vegetable oil) using near infrared spectroscopy data[J]. Analytica Chimica Acta, 2011,689: 190-197.

[6]梁俐俐,吴正举,苏明亮,等.云贵产区烟叶近红外检测分模型和总模型的对比分析[J].中国烟草科学,2008,29(2):42-46.

[7]邱軍,王允白,张怀宝,等.近红外光谱法预测烟气总粒相物中的烟碱含量[J].中国烟草科学,2006(2):12-13.

[8] Barbin D F, Kaminishikawahara C M, Soares A L. Prediction of chicken quality attributes by near infrared spectroscopy[J]. Food Chemistry, 2015, 168: 554-560.

[9] Haughey S A, Graham S F, Cancouët E, et al. The application of Near-Infrared Reflectance Spectroscopy (NIRS) to detect melamine adulteration of soya bean meal[J]. Food Chemistry, 2013, 136: 1557-1561.

[10] 邱军,张怀宝,宋岩,等.近红外光谱分析技术在烟草行业的应用[J].中国烟草科学,2008,29(1):55-59.

[11]董小卫,马 强,厉昌坤,等.近红外检测把烟叶片化学成分技术研究[J].中国烟草科学,2008,29(4):10-14.

[12] 付秋娟,张怀宝,邱军,等.近红外光谱法快速测定烟草中的总挥发碱[J].中国烟草科学,2005,26(4):14.15.

[13] 王宏铝,王筑临,许小双,等.基于在线烟碱预测模型的烟叶复烤均质化加工[J].烟草科技,2015,48(6):73-77.

[14] 温亚东,王毅,王能如,等.近红外光谱的投影分析方法在工业分级与复烤模块配方中的应用[J].中国烟草学报,2009,15(5):6-10.

推荐访问:光谱 样品 烟草 挑选 模型

热门排行

学习贯彻《信访工作条例》经验征文11篇

学习贯彻《信访工作条例》经验征文11篇学习贯彻《信访工作条例》经验征文篇1信访工作是党的群众工作的重要组成部分,是送上门来的群众工作。5月1日起施行的《信访

基层财政所工作面临困惑和建议 乡镇财政体制改革存在问题

下面是小编为大家精心整理的基层财政所工作面临困惑和建议乡镇财政体制改革存在问题文章,供大家阅读参考。基层财政

巡察谈话情况报告例文 巡察县政府办党组情况报告

下面是小编为大家精心整理的巡察谈话情况报告例文巡察县政府办党组情况报告文章,供大家阅读参考。巡察谈话情况报告

从《开国大典》谈中国油画民族化

“油画民族化”是1956年9月全国油画座谈会上提出来的,在当时的社会中,它不只是一个口号和一个新名词

世界优秀心理电影在青少年心理健康教育中的发掘和应用

摘要:世界优秀心理电影因其有针对性的题材、富于启发性的内容、强大的艺术魅力,对解决青少年心理问题、促

党员队伍建设存在问题与对策 党员队伍教育管理存在的问题

下面是小编为大家精心整理的党员队伍建设存在问题与对策党员队伍教育管理存在的问题文章,供大家阅读参考。xx村党员

传承红色基因征文600字 弘扬红色文化传承红色基因作文2000字

下面是小编为大家精心整理的传承红色基因征文600字弘扬红色文化传承红色基因作文2000字文章,供大家阅读参考。亲爱的朋友,

向巡视组工作情况汇报 被巡察单位党组织工作汇报材料

下面是小编为大家精心整理的向巡视组工作情况汇报被巡察单位党组织工作汇报材料文章,供大家阅读参考。向巡视组工作情况

职工代表大会制度.docx 职代会制度和职工大会制度

下面是小编为大家精心整理的职工代表大会制度 docx职代会制度和职工大会制度文章,供大家阅读参考。一、职工代

(完整版)学校意识形态工作实施方案 2022年学校意识形态工作要点

下面是小编为大家精心整理的(完整版)学校意识形态工作实施方案2022年学校意识形态工作要点文章,供大家阅读参考。学