鄒婷婷,竇英,王瑩,宋煥祿,龐小一,陶菲菲,張秋晨
1(北京工商大學(xué)食品學(xué)院,北京,100048)2(天津科技大學(xué)理學(xué)院化學(xué)系,天津,300457)3(吉林省產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)院,吉林長(zhǎng)春,130022)
食用淀粉主要包括薯物淀粉、谷類淀粉、豆類淀粉等,其中玉米淀粉占有重要位置,目前應(yīng)用最多且價(jià)格較為低廉。而大米和小麥因?yàn)閮r(jià)格高,且是主糧而相對(duì)用作加工淀粉及深加工較少,薯類淀粉中紅薯淀粉和馬鈴薯淀粉價(jià)格相對(duì)偏高。因?yàn)椴煌N類淀粉顆粒的感官性狀和物化指標(biāo)差別不明顯,難以辨認(rèn),部分生產(chǎn)者便在薯類淀粉和谷類淀粉中添加價(jià)廉的玉米淀粉出售,以賺取更高的利潤(rùn)。國家食品質(zhì)量安全監(jiān)督檢驗(yàn)中心開展的“我國食用淀粉種類的鑒別技術(shù)研究”科研項(xiàng)目,采用經(jīng)典方法,提取了24種不同植物來源的食用淀粉顆粒,運(yùn)用掃描電鏡技術(shù),對(duì)不同種類食用淀粉顆粒的超微形貌特征進(jìn)行了分析,建立了不同種類食用淀粉的定性分析方法[1],此種方法相對(duì)來說儀器價(jià)格較高。
近紅外光譜是由于分子振動(dòng)的非諧振性使分子振動(dòng)從基態(tài)向高能級(jí)躍遷時(shí)產(chǎn)生的,記錄含氫基團(tuán)X—H(X C、N、O)振動(dòng)的倍頻和合頻吸收[2]。近紅外光譜技術(shù)具有樣品前處理簡(jiǎn)單、無需化學(xué)試劑、儀器操作簡(jiǎn)單、檢測(cè)速度快,穩(wěn)定性好、可實(shí)現(xiàn)在線分析等優(yōu)點(diǎn),在食品領(lǐng)域有廣泛研究和應(yīng)用[3-4]。光譜學(xué)上通常將780~1 100 nm稱為短波近紅外光譜區(qū),由于分子在該譜區(qū)的波頻和吸收信號(hào)均較弱,譜帶多且相互重疊,需借助于更強(qiáng)大的化學(xué)計(jì)量學(xué)方法分析處理數(shù)據(jù)。支持向量機(jī)(support vector machine,SVM)是一種新的機(jī)器學(xué)習(xí)算法,具有一定的處理高維有限數(shù)量的非線性數(shù)據(jù)的能力,有研究將聚類分析和SVM方法應(yīng)用于淀粉分類[5]和葛粉摻假問題取得良好效果。
本研究引入一種新型SVM方法,即ν-SVM[6],建立淀粉種類鑒別模型,通過比較不同光譜預(yù)處理方法優(yōu)化模型,并通過未知樣品對(duì)模型性能進(jìn)行評(píng)價(jià)。
紅薯淀粉、馬鈴薯淀粉和玉米淀粉,共112個(gè)樣本,隨機(jī)分為訓(xùn)練集和預(yù)測(cè)集。其中,訓(xùn)練集包含78個(gè)樣本,測(cè)試集包含34個(gè)樣本。
表1 淀粉樣品分布的統(tǒng)計(jì)結(jié)果Table 1 The statistical results of the starch samples
尼高力6700傅立葉紅外光譜儀及積分球、樣品杯等附件。SVM算法使用網(wǎng)絡(luò)共享軟件libsvm,由Chih-Chung Chang 和 Chih-Jen Lin 提供[7]。
淀粉樣品不作任何處理直接進(jìn)行近紅外光譜采集。測(cè)量時(shí)將樣品裝入樣品杯,采用漫反射光譜法,掃描范圍10 000~12 799 cm-1,分束器 CaF2,分辨率8 cm-1,掃描次數(shù)為64次。每個(gè)樣品重復(fù)掃描3次,取平均值。圖1為112個(gè)淀粉樣品的短波近紅外光譜圖,由于短波近紅外光譜的譜帶較寬且靈敏度較差,吸收峰重疊嚴(yán)重,其相似性很難以肉眼判斷,須借助化學(xué)計(jì)量學(xué)方法。
圖1 112個(gè)淀粉樣品的短波近紅外光譜圖Fig.1 Short-wave NIR spectra for 112 starch samples
SVM最大的優(yōu)勢(shì)是根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,能較好地解決小樣本情況下模型可靠性預(yù)測(cè)問題。SVM優(yōu)良的推廣性能實(shí)現(xiàn),同模型中參數(shù)C、γ等有很大的關(guān)系,如何根據(jù)訓(xùn)練樣本集選擇合適的模型參數(shù),以保證建立好的模型有很好的推廣性能,成為建立SVM分類模型的關(guān)鍵一步。
在C-SVM中,有兩個(gè)相互矛盾的目標(biāo):最大化間隔和最小化訓(xùn)練誤差。其中的常數(shù)C起著調(diào)和這2個(gè)目標(biāo)的作用,C值的選取常常比較困難。Scholkopf[6]提出了一種新型支持向量機(jī)ν-SVM,該支持向量機(jī)中參數(shù)ν能夠控制支持向量的數(shù)目和訓(xùn)練誤差的大小。本研究中分別使用C-SVM和ν-SVM 2種類型的支持向量機(jī)。C-SVM對(duì)正負(fù)類樣本采用不同的懲罰函數(shù)Cp和Cn;ν-SVM在支持向量和錯(cuò)誤訓(xùn)練的比率上相關(guān)性更好,C-SVM的參數(shù)C取值范圍在[0,+∞],而ν-SVM的參數(shù)ν取值范圍在[0,1]。
儀器采集的原始光譜中除包含與樣品組成有關(guān)的信息外,同時(shí)也包含來自各方面因素所產(chǎn)生的噪音信號(hào)。平滑是濾除噪音最常用的方法,微分能有效消除光譜漂移,二者都是常用的光譜預(yù)處理方法。多元散射校正(multiplicative scatter correction,MSC)處理可以消除光譜在吸光度軸上的差異,從而消除散射效應(yīng)的影響。本研究比較了4種光譜預(yù)處理方法,即平滑、一階微分、二階微分、多元散射矯正對(duì)所建模型的影響,見表2。
類似于其他多元校正方法,SVM模型的泛化性能也是依賴于幾個(gè)參數(shù)的恰當(dāng)選擇之上的,關(guān)鍵是在所給定的數(shù)據(jù)集上找到最佳的參數(shù)設(shè)置。經(jīng)驗(yàn)表明高斯核函數(shù)具有良好的學(xué)習(xí)能力,這里也選用高斯核函數(shù)。其他3個(gè)參數(shù)的選擇可以根據(jù)經(jīng)驗(yàn),自舉法,交叉驗(yàn)證等方法進(jìn)行確定,其中最常用的方法就是交叉驗(yàn)證法(Cross-Validation)。在建模中,采用全局尋優(yōu)方式得到SVM的參數(shù)優(yōu)化值,參數(shù)優(yōu)化結(jié)果見表3。采用交叉驗(yàn)證正確率作為交叉驗(yàn)證的檢驗(yàn)指標(biāo),以正確率來考察所建模型的性能和預(yù)測(cè)效果,最后用測(cè)試集數(shù)據(jù)對(duì)訓(xùn)練模型進(jìn)行測(cè)試,結(jié)果如表2。
表2 C-SVM和ν-SVM鑒別淀粉種類的正確率比較Table 2 Different correct ratio of starch category of C-SVM and ν-SVM models
表3 C-SVM和ν-SVM參數(shù)優(yōu)化Table 3 Optimized parameters used for construction of C-SVM and ν-SVM models
表2中數(shù)據(jù)顯示,平滑、多元散射矯正、微分3種預(yù)處理方法后,ν-SVM的建模效果最好,訓(xùn)練集交叉驗(yàn)證正確率和測(cè)試集正確率均達(dá)到100%。
馬氏距離判別分析法作為一種線性方法,也常用于近紅外光譜的結(jié)果分析。但短波近紅外光譜與屬性間常常存在非線性關(guān)系,處理這樣的光譜,采用馬氏距離判別分析方法有一定的局限性。為了和非線性分析方法支持向量機(jī)作比較,本實(shí)驗(yàn)采用馬氏距離判別分析法建立了紅薯淀粉、馬鈴薯淀粉、玉米淀粉的識(shí)別模型,用主成分分析(principle component analysis,PCA)法將原始數(shù)據(jù)降維,消除眾多信息共存中相互重疊的信息部分后,采用較少變量計(jì)算判別。在原始光譜的全波數(shù)段范圍內(nèi),比較了4種光譜預(yù)處理方法,即平滑、一階微分、二階微分、多元散射矯正對(duì)所建模型的影響,同時(shí)對(duì)34個(gè)未知樣品進(jìn)行預(yù)測(cè)。馬氏距離判別分析方法結(jié)果如圖2和表4。
圖2 馬氏距離判別分析模型的樣品分布圖Fig.2 Sample distribution of Mahalanobis distance models
表4 馬氏距離判別分析法鑒別淀粉種類的正確率Table 4 Different correct ratio of starch category of Mahalanobis distance models
ν-SVM法同短波近紅外漫反射光譜法結(jié)合,鑒別淀粉種類是可行的,同馬氏距離判別分析法比較建模效果更好,且無須對(duì)樣品進(jìn)行處理,操作簡(jiǎn)單,可實(shí)現(xiàn)快速無損鑒別淀粉種類的目的。
[1] 我國淀粉種類鑒別技術(shù)研究獲突破[N].中國質(zhì)量報(bào),2010-04-06.
[2] 陸婉珍,袁洪福,徐廣通,等.現(xiàn)代近紅外光譜分析技術(shù)[M].北京:中國石油化工出版社,2000:2-5.
[3] 李燕萍,錢瑩,段鋼.采用近紅外光譜測(cè)定木薯乙醇發(fā)酵液中乙醇、甘油和葡萄糖含量[J].食品與發(fā)酵工業(yè),2009,35(8):117-121.
[4] 熊成,董慶利,曾靜,等.近紅外光譜分析技術(shù)在肉品品質(zhì)檢測(cè)中的應(yīng)用[J].食品與發(fā)酵工業(yè),2010,36(12):141-145.
[5] 孫曉榮,劉翠玲,吳靜珠,等.SVM方法在淀粉分類問題中的應(yīng)用[J].食品工業(yè)科技,2011,32(11):431-433.
[6] Scholkopf B,Smola A J,Williamson R C,et al.New support veuor algorithms[J].Neural Computation,2000,12(5):1 207-1 245.
[7] Chang C C,Lin C J,臺(tái)灣大學(xué),2012.http:/www.csie.ntu.edu.tw/_cjlin/libsvm.