近红外光谱法结合化学计量学方法用于茶油真伪鉴别分析
摘 要 采用近红外光谱透反射模式结合化学计量学方法对纯茶油进行真伪鉴别。收集并扫描了163个样品(合格97个,不合格66个),对样本进行光谱数据预处理优化及有效波段筛选。在5750 ~6000 cm-1波段处,光谱经过平滑,一阶导数以及自归一化后,采用无监督学习算法即主成分分析法(Principal component analysis,PCA)进行分类,然后再采用有监督学习算法即判别分析(Discriminant analysis, DA)建立校正模型,进行预测。PCA和DA都能够得到满意的结果,两种方法的分类准确率均达到98.8%。结果表明: 近红外光谱可作为一种简单、快速、无损、可靠的方法用于鉴别纯茶油的真伪。
关键词 茶油; 近红外光谱; 化学计量学; 鉴别
1 引 言
茶油全称是油茶籽油,是油茶树(Camellia Oleifera Abel)所产富含脂肪的种子经压榨或浸提得到的植物油脂。茶油不仅色、香、味俱佳,且具有预防高血压、冠心病、动脉粥样硬化等心血管疾病的功效,因此有“东方橄榄油”、“油王”及“油中珍品”等称号。茶油的高营养价值与其脂肪酸组成有关,《GB 11765-2003油茶籽油》中鉴定了茶油的主要脂肪酸组成:油酸(C18∶1)74%~87%,亚油酸(C18:2)7.0%~14%,饱和酸7%~11%。茶油中油酸的含量为天然植物油中之冠;含有的亚油酸、亚麻酸等多不饱和脂肪酸,是人体生长和生理活动不可缺少的必需脂肪酸,人体消化吸收率达97%;茶油富含生理活性物质甾醇、生育酚、角鲨烯等,对提高人体抗病能力,延缓衰老有重要作用;还含有山茶苷、山茶皂苷等特定的活性物质;茶油的抗氧化能力是普通油脂的60倍;茶油烟点高,热稳定性好。茶油因色香味美,并具有保健功能,市场发展前景良好。
目前,市场上的纯茶油品种有100%野山茶油、100%茶油。为了促进茶油质量的提高和防止掺假,对于100%纯茶油品质的检验,《GB 11765-2003油茶籽油》与《GB/T 5539-2008 粮油检验 油脂定性检验方法》分别采用茶油的特征指标脂肪酸组成和茶油的定性实验作为100%纯茶油真实属性的主要判定依据。已有采用液相色谱法、气相色谱法、气相质谱法与核磁共振等方法鉴别油脂真实属性的报道,但其成本较高,耗时且对样品具有破坏性。有必要寻找一种简单、快速、准确的鉴别方法,保证茶油品质。
采用近红外光谱技术对茶油的品质进行分析的报道较少。李娟等采用红外和近红外光谱结合SIMCA模式识别法对植物油进行分类识别。Wang等采用近红外光谱与中红外光谱结合SIMCA法和PLS法定性、定量分析了在茶油中添加大豆油的掺假样品。本研究采用无监督学习算法,即主成分分析(Principal components analysis, PCA)与有监督学习算法,即判别分析(Discriminate analysis, DA),分别建立了纯茶油真伪的分类模型,两种方法相互验证,并对光谱预处理方法与波段筛选做了系统的考察,取得了满意的效果。
2 实验部分
2.1 仪器与试剂
2010气相色谱仪(日本Shimadzu公司),包括自动进样器,进样口、柱温箱、FID检测器及GC SOLUTION数据处理工作站; Nicolet Antaris Ⅱ傅里叶变换近红外光谱仪(美国Thermo公司),配有积分球漫反射采样系统,InGaAs检测器,Omnic 7.3光谱采集软件,TQAnalyst v6.2.1分析软件,配有金反射板的样品杯(丹麦FOSS公司),采用Matlab7.1软件(Mathwork Inc.)处理数据。
脂肪酸甲酯标样(Sigma-Aldrich公司),包括油酸甲酯(CAS 0000112629)、亚油酸甲酯(CAS 0000112630)、亚麻酸甲酯(CAS 0000301008)、棕榈酸甲酯(CAS 0000112390)和硬脂酸甲酯(CAS 0000112618)。甲醇(色谱纯, Tedla公司); 异辛烷(色谱纯, Kermel公司); KOH(分析纯,汕头市西陇化工有限公司); NaHSO4(分析纯,上海市振兴化工有限公司)。
2.2 实验方法
2.2.1 样品收集 本实验所用样品163个,其中包括115个茶油(49个未精炼的原茶油,66个标称精炼纯茶油),16个菜籽油,6个大豆油,11个花生油,15个芝麻油。未精炼茶籽油由常德当地农户提供,其它样品购自长沙市各大超市。
2.2.2 气相色谱方法 前处理方法:采用《GB/T 17377-2008 动植物油脂脂肪酸甲脂的气相色谱分析》方法。称取油样60 mg至10 mL具塞试管中,移取4 mL异辛烷,溶解试样,用微量移液管加入200
@ L KOH-甲醇溶液,盖上玻璃塞剧烈振摇30 s后静置至澄清。向溶液中加入约1 g NaHSO4,剧烈振摇,中和KOH。待盐沉淀后,将上层甲酯溶液倒入进样瓶中,进行GC分析。
气相色谱条件: RTX-WAX色谱柱(30 m×0.25 mm×0.25
@ m);进样口温度:250℃;柱流速:氮气1.1 mL/min; 程序升温:170℃保持0.5 min,升温速度为12 ℃/min,终温230 ℃,保持21 min;检测器氢火焰离子化(FID):280℃;氢气流速:40.0 mL/min;空气流速:400 mL/min;尾吹:30.0 mL/min;分流进样:分流比30∶1。
2.2.3 近红外光谱方法
近红外光谱采用透反射检测系统,NIR光谱扫描波数10000~4000 cm-1,扫描次数32次,分辨率8 cm-1,以内置背景为参照。每批样品平行实验4次,取其平均光谱。在样品杯中置入1 mL样品,然后用金反射板小心盖压在样品杯中,以消除气泡对光程的影响。每次采集光谱之后,依次用洗涤剂、自来水及蒸馏水将样品杯与金反射板洗净,然后用电吹风吹干,待用。
3 结果与讨论
3.1 纯茶籽油脂肪酸组成含量的测定
采用上述优化的样品预处理方法和气相色谱条件, 测定115个标称纯茶油样品中油酸、亚油酸等5种脂肪酸的含量。根据《GB/T 11765-2003 油茶籽油》鉴定的纯茶油脂肪酸组成范围,判断所有样品的真实属性。不合格样品的脂肪酸组成如表1所示。
3.2 样本的光谱建模波段选择
图1为代表性样本的近红外光谱图,记录了10000~4000 cm-1波数样品的透反射光谱曲线,该区域包含了CH键的一级倍频、二级倍频与合频信息及OH键的一级倍频,其中光谱1和2分别表示合格与不合格纯茶油样品图。由图1可见,合格与不合格茶油的NIR光谱无明显差异,用肉眼很难辨别,必须采用化学计量学方法进行数据预处理和建立模型。由于NIR全谱有1557个光谱变量,包含了大量冗余的信息。如果采用全光谱建模,模型复杂,计算时间长,而且还会影响模型的准确性。因此,需要对建模波段进行选择。对10000~4000 cm-1全光谱进行Savitzky-Golay五点二次多项式平滑,扣除噪声,采用一阶导数变换得光谱图2。由图2可见,在伸缩振动与面内振动组合频吸收区4200~4400 cm-1及伸缩振动一级倍频区5750~6000 cm-1,谱图之间的差异较大。但由于4200~4400 cm-1属于高吸收区,光谱吸收强度可能与成分浓度之间存在较强的非线性关系。因此,本研究选择5750~6000 cm-1作为建模的变量输入,共66个变量。5750~6000 cm-1谱带的归属是CH2, CH3以及CCH伸缩振动的一级倍频,而合格与不合格纯茶油之间的光谱主要差异是由于亚油酸与油酸含量不同造成的,而油酸与亚油酸的结构中均含有上述4种基团,本研究以5750~6000 cm-1波段作为输入变量是合理的。
图1 具有代表性样本的近红外光谱
Fig.1 Representative NIR spectra of the samples
1. 合格样品(Qualified); 2. 不合格样品(Unqualified)\.
图2 采用平滑与一阶导数处理后样本的近红外光谱
Fig.2 NIR spectra by smoothing and first derivative
3.3 无监督学习算法
PCA是经典的无监督学习算法,也是最常用的数据压缩和特征提取方法。PCA的主要目的是将整个数据进行降维,以排除大量化学信息共存中相互重叠的信息。它是将原变量进行转换,使少数几个新变量成为原变量的线性组合,同时,这些变量要尽可能多地表征原变量的数据结构特征而不丢失的信息。这样新变量既保留了原有变量的主要信息,又减少了变量的个数。新变量又称为得分,彼此正交。得分图能够揭示数据集的分类,因此用PCA定性区分真伪茶籽油。以下是原始数据经不同的预处理方法处理后,得到的主成分的得分图。本研究中主成分得分图是利用PC1和PC2绘制的样品分类图,横纵坐标的数字表示主成分所能解释的方差占所有主成分方差的百分数。
3.3.1 原始光谱数据的主成分得分图 163个样本的原始近红外光谱的主成分得分图如图3所示。从图3可见,直接用原始数据分类效果不好,两类样本之间严重重叠。这可能是由于原始光谱数据中存在光谱随机噪声、基线漂移、干扰组分背景光谱与测定环境背景等因素的影响。此外茶油样品是由很多化学物质组成,其本身的复杂性也是影响分类效果的重要因素。因此在对光谱进行主成分分析之前要进行建模波段筛选与数据预处理。
3.3.2 预处理后的主成分图
在全谱及5750~6000 cm-1范围内,考察平滑(Smoothing)、一阶导数(First derivative)、二阶导数(Second derivative)、中心化(Centering)、自归一化(Autoscaling)及相互组合等8种数据预处理方法。平滑可以消除随机噪声;导数运算可以去除斜坡背景并提高光谱分辨率,但次数太多可能会降低光谱信噪比;中心化可以去除光谱变量绝对强度对建模的影响;而自归一化可以同时消除绝对强度以及光散射的影响。通过运算,最优的组合方法为:在5750~6000 cm-1波数下,采用平滑、一阶导数及自归一化3种方法处理,如图4所示。两类样本经处理后,分类效果良好,正确识别率能够达到98.8%。97个合格的纯茶油以及66个不合格纯茶油中,只有2个不合格样品被误判,被划分到合格样品区域,它们的样品编号分别为68号和82号。从表1可见,68号和82号样品的油酸含量分别为67.4%和67.5%; 亚油酸含量分别为16.5%和16.4%。与合格纯茶油的油酸下限值74%、亚油酸上限值14%,非常接近。由于这两个样品的化学组成、含量与合格样品非常接近,光谱差异很小,从而导致这两个样品被错判。
图3 原始光谱的主成分得分图
Fig.3Principal component score for original spectra
图4 经平滑、一阶导数和自归一化后的主成分得分图
Fig.4 Principal component score:smoothing, first derivative and autoscaling
3.4 有监督学习算法
采取DA对合格与不合格油样进行分类。DA是在PCA基础上进行的,求每个样本点距各类中心(该类所有建模样本主成分得分的平均值)的马氏距离,马氏距离可以反映样本点与该类的聚集程度,样本点距哪一类中心的距离最近,则归为哪一类。
利用仪器所集成的TQ Analyst v6.2.1提取了各个光谱的前10个主成分,前10个主成分的累计贡献率为100%。163个样品中,随机抽取122个样品作为训练集,剩余的41个样品作为预测集。同样取5750~6000 cm-1波段作为建模波段,平滑后,对光谱进行建模。鉴别准确率与PCA方法相同,DA训练集中82号被判错,预测集中68号被判错,上述两个不合格样本均被识别为合格样本,样本集总识别率为98.8%。
3.5 两种方法的比较
比较PCA与DA两种方法,错判的均为68号和82号,结果一致。模型的总体正确识别率为988%。而且通过无监督学习算法与有监督学习算法的相互验证,二者的结果完全相同,说明采用近红外光谱技术能够准确、可靠地鉴别纯茶油的真伪,是对茶油定性鉴别的简单、有效的方法。由图3和图4可见,68号和82号均被划分到合格的纯茶油样品中,说明这两个样本的性质与合格纯茶油更为相似,其脂肪酸组成含量不合格原因可能与油茶籽品种及采摘时间有关。
References
1 BAI Yun-Ai, SONG Da-Hai, ZHANG Fu-Qiang, XIAO Xue-Jun, ZHANG Qun-Xue(柏云爱,宋大海,张富强,肖学军,张群学). China Oils and Fats(中国油脂), 2008, 33(3): 39~41
2 LIU Yu-Lan, WANG Xue-De(刘玉兰, 汪学德). Oil Extraction Technology(油脂制取工艺学), Chemical Industry Press(化学工业出版社), 2006:41~43
3 Zabaras D, Gordon M H. Food Chem., 2004, 84(3): 475~483
4 Hajimahmoodi M, Vander Heyden Y, Sadeghi N, Jannat B, Oveisi M R, Shahbazian S. Talanta, 2005, 66(5): 1108~1116
5 Damirchi S A, Savage G P, Dutta P C.J. Am. Oil. Chem. Soc.,2005, 82(10): 717~725
6 Fragaki G, Spyros A, Siragakis G, Salivaras E, Dais P.J. Agr. Food Chem., 2005, 53(8): 2810-2816
7 LI Juan, FAN Lu, DENG De-Wen, ZHOU Zhan-Ming, WU Cun-Rong, TANG Huai-ian(李娟,范璐,邓德文,周展明,吴存荣,唐怀建). Journal of Henan University of Technology, Natural Science Edition(河南工业大学学报),2008, 29(5): 18~21
8 Wang L, Lee F S C, Wang X R, He Y. Food Chemistry, 2006,95: 529~536
9 ZHU Xiang-Rong, LI Na, SHI Xin-Yuan, QIAO Yan-Jiang, ZHANG Zhuo-Yong(朱向荣,李 娜,史新元,乔延江,张卓勇). Chinese J. Anal. Chem.,(分析化学), 2008, 36(6): 770~774
10 LU Wan-Zhen(陆婉珍). Modern Near Infrared Spectroscopy Analytical Technology \(现代近红外光谱分析技术,第二版), China Petrochemical Press(中国石化出版社), 2006: 29~31
11 XU Lu, SHAO Xue-Guang(许 禄, 邵学广). Method of Chemometrics(化学计量学方法), Science Press(科学出版社), 2004: 130~138
12 ZHU Xiang-Rong, LI Na, SHI Xin-Yuan, QIAO Yan-Jiang, ZHANG Zhuo-Yong(朱向荣,李 娜,史新元,乔延江,张卓勇). Chem. J. Chinese Universities(高等学校化学学报), 2008, 29(5): 906~911
13 WANG Jia-Jun,QIU Qi-Yang, LIU Wei(王家俊,邱启杨,刘 巍). Spectroscopy and Spectral Analysis(光谱学与光谱分析), 2007, 25(5): 895~898
Identification of Camellia Oils by Near Infrared Spectroscopy
Combined with Chemometrics
ZHANG Ju-Hua, ZHU Xiang-Rong, LI Gao-Yang, SHAN Yang*,
SHANG Xue-Bo, HUANG Lu-Hong, SHUAI Ming
(Hunan Food Test and Analysis Centre, Hunan Academy of Agricultural Science, Changsha 410125)
Abstract Near infrared spectroscopy(NIRS) in the traeflection mode combined with chemome-trics was used to identify Camellia oil. The samples set contained 163 spectra of qualified (n=97) and unqualified (n=66) have been collected and scanned, the spectral data were pretreated and selected for effective variables. In the wavenumber range 5750 cm-1 to 6000 cm-1, the optimal combination of pretreatments (smoothed, first derivative, and autoscaling) was adopted to process the spectra. Unsupervised classification-principal component analysis (PCA) was firstly adopted to classify, and then supervised classification-discriminant analysis (DA) was used to build calibration model to predict. Satisfactory results were obtained by PCA and DA, the correct recognition rates of two methods can reach 98.8%. The results showed that NIRS can be used as a simple, rapid, nondestructive and reliable method to identify Camellia oil.
Keywords Camellia oil; Near infrared spectroscopy; Chemometrics; Identify
(Received 9 July 2010; accepted 6 December 2010)