栢鳳女,劉建學(xué),韓四海,徐寶成,李佩艷,羅登林,田 碩
(河南科技大學(xué)食品與生物工程學(xué)院,河南 洛陽(yáng) 471023)
食源性致病菌是引起食源性疾病的首要原因[1],全球每年發(fā)生高達(dá)1.5億的腹瀉病例中,有70%是由各種致病性微生物污染食品所引起[2],因而快速、簡(jiǎn)便、特異的檢測(cè)方法成為研究熱點(diǎn)?,F(xiàn)代生物技術(shù)檢測(cè)方法如基因芯片技術(shù)[3-5]、多重聚合酶鏈?zhǔn)椒磻?yīng)(polymerase chain reaction,PCR)技術(shù)[6-7]、免疫磁珠分離技術(shù)[8]等分析方法用于微生物的鑒定已得到廣泛認(rèn)可,但這些方法操作復(fù)雜,試劑昂貴,需要專業(yè)的操作人員。因此,更簡(jiǎn)易的食源性致病菌的近紅外快速鑒別方法需要研究。
近紅外光譜分析技術(shù)以其快速、無(wú)損、環(huán)保等優(yōu)點(diǎn)[9],廣泛應(yīng)用于農(nóng)產(chǎn)品檢測(cè)[10]、石油化工[11]、藥物分析[12-13]、食品分析[14]、紡織品[15]等領(lǐng)域。支持向量機(jī)(support vector machine,SVM)是Vapnik在1995年提出的一種研究有限樣本情形下統(tǒng)計(jì)規(guī)律機(jī)器學(xué)習(xí)技術(shù)[16],是一種針對(duì)小樣本情況研究統(tǒng)計(jì)學(xué)習(xí)規(guī)律的理論,該理論的核心思想是通過(guò)采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則來(lái)控制學(xué)習(xí)機(jī)器的容量,從而刻畫了過(guò)度擬合與泛化能力之間的關(guān)系。較之于傳統(tǒng)方法,支持向量機(jī)克服了傳統(tǒng)方法的大樣本要求與維數(shù)災(zāi)難及局部極小問(wèn)題,能夠較好地解決神經(jīng)網(wǎng)絡(luò)難以解決的小樣本、高維數(shù)和存在局部極小點(diǎn)等實(shí)際問(wèn)題,并在處理非線性、小樣本、高維數(shù)、局部極小值等模式識(shí)別問(wèn)題時(shí)顯示了其卓越的優(yōu)越性[17-19]。其出色的學(xué)習(xí)能力使得該技術(shù)已成為機(jī)器學(xué)習(xí)界的研究熱點(diǎn)之一。
本實(shí)驗(yàn)將近紅外光譜數(shù)據(jù)通過(guò)主成分分析法進(jìn)行壓縮后,采用支持向量機(jī)對(duì)3 種食源性致病菌進(jìn)行分類鑒別研究。
腸出血性大腸桿菌O157∶H7(E.coliO157:H7)河南省出入境檢驗(yàn)檢疫局;單增李斯特菌(Listeria monocytogenes,LM)、金黃色葡萄球菌(S.aureus)河南省洛陽(yáng)市疾病預(yù)防與控制中心。
胰酪胨大豆酵母浸膏瓊脂、胰酪胨大豆酵母浸膏肉湯 北京奧博星公司;營(yíng)養(yǎng)肉湯,參考YY/T 1187—2010《營(yíng)養(yǎng)肉湯培養(yǎng)基》;營(yíng)養(yǎng)瓊脂,參考YY/T 0577—2005《營(yíng)養(yǎng)瓊脂培養(yǎng)》。
立式壓力蒸汽滅菌器 上海博訊實(shí)業(yè)有限公司醫(yī)療設(shè)備廠;HS-840U型超凈工作臺(tái) 蘇州凈化設(shè)備有限公司;電熱恒溫培養(yǎng)箱 上海躍進(jìn)醫(yī)療器械一廠;全溫空氣搖床 上海?,攲?shí)驗(yàn)設(shè)備有限公司;KDC-160HR型高速冷凍離心機(jī)、真空冷凍干燥機(jī) 北京比朗實(shí)驗(yàn)設(shè)備有限公司;VECTOR-33型傅里葉變換紅外光譜儀 德國(guó)布魯克公司;分析軟件為OPUS 6.5與SPSS,算法處理軟件為Matlab 7.0。
1.3.1 細(xì)菌樣品的制備
將分別在37 ℃條件下的單菌落大腸桿菌O157∶H7、單增李斯特菌、金黃色葡萄球菌培養(yǎng)至對(duì)數(shù)生長(zhǎng)期,分別以9 000 r/min(大腸桿菌O157∶H7)離心10 min,4 000 r/min(單增李斯特菌、金黃色葡萄球菌)離心20 min,無(wú)菌水洗滌3 次后收集濕菌體,將濕菌體經(jīng)真空冷凍干燥至恒質(zhì)量,制得干菌體。
1.3.2 樣本采集
3 種食源性致病菌均以一個(gè)單菌落為一個(gè)樣本,共采集樣本90 個(gè),其中72 個(gè)(大腸桿菌O157∶H7、單增李斯特菌和金黃色葡萄球菌樣本分別為24 個(gè))作為訓(xùn)練集樣本,余下的18 個(gè)(大腸桿菌O157∶H7、單增李斯特菌和金黃色葡萄球菌樣本分別為6 個(gè))作為預(yù)測(cè)集樣本。
1.3.3 檢測(cè)樣品的制備
采用溴化鉀壓片法制備檢測(cè)樣品。取樣品1~2 mg于瑪瑙研缽中與100 mg預(yù)先干燥的溴化鉀混合在紅外燈下研磨至2 μm左右的顆粒,使樣品與溴化鉀混合均勻,將混合物于20 MPa條件下壓制成均勻的透明薄片。
1.3.4 近紅外光譜采集
在溫度為20~22 ℃,濕度為30%~40%的條件下,采用傅里葉變換紅外光譜儀采集樣品透射光譜,儀器預(yù)熱30 min后,以未加樣品的溴化鉀薄片為背景,采集含樣品的溴化鉀薄片的近紅外透射光譜。設(shè)置參數(shù)為分辨率4 cm-1,掃描次數(shù)64 次,波數(shù)范圍10 000~4 000 cm-1。每個(gè)樣品重復(fù)測(cè)3 次,取其平均光譜。
為去除隨機(jī)噪聲、基線漂移等與待測(cè)樣品性質(zhì)無(wú)關(guān)的因素的影響,需要對(duì)光譜進(jìn)行預(yù)處理。在OPUS 6.5分析軟件中對(duì)所采集的近紅外光譜進(jìn)行基線校正、平滑(平滑點(diǎn)數(shù)為9)、一階導(dǎo)數(shù)和矢量歸一化處理。平滑可去除高頻噪音對(duì)所測(cè)樣品信號(hào)的干擾,提高分析信號(hào)的信噪比;一階導(dǎo)數(shù)可消除基線漂移,強(qiáng)化譜帶特征;矢量歸一化處理可消除因樣品厚度不同帶來(lái)的測(cè)量誤差,并保持光譜的特征。
圖1 食源性致病菌近紅外透射光譜Fig.1 NIR transmittance spectra of three species of food-borne bacteria
由圖1可見(jiàn),3 種食源性致病菌在7 500~4 000 cm-1有吸收,在6 200~4 000 cm-1所含信息量更為豐富,選擇對(duì)含信息量豐富的這一波數(shù)范圍的近紅外光譜數(shù)據(jù)進(jìn)行研究分析。從圖譜來(lái)看,不同食源性致病菌的近紅外透射譜圖比較相似,肉眼無(wú)法對(duì)其進(jìn)行分辨。
由于近紅外光譜反映的是化學(xué)組分對(duì)近紅外光吸收的倍頻和組合頻信息,光譜信息有嚴(yán)重重疊,食源性致病菌近紅外光譜中所包含數(shù)據(jù)量龐大,利用原始光譜數(shù)據(jù)建立模型會(huì)導(dǎo)致建模時(shí)間長(zhǎng),且無(wú)法消除光譜中相互重疊的信息。因此,在建立預(yù)測(cè)模型前,需要對(duì)原始光譜數(shù)據(jù)進(jìn)行壓縮處理,本實(shí)驗(yàn)選擇主成分分析法對(duì)食源性致病菌近紅外光譜數(shù)據(jù)進(jìn)行壓縮,將原變量進(jìn)行轉(zhuǎn)換,使少數(shù)個(gè)新變量代替原變量,并盡可能多地表征原變量的數(shù)據(jù)特征而不丟失信息。經(jīng)轉(zhuǎn)換得到的新變量是互不相關(guān)的,消除了眾多信息共存中相互重疊的信息部分。對(duì)全部食源性致病菌近紅外光譜數(shù)據(jù)進(jìn)行主成分分析,得到前26 個(gè)主成分的累積貢獻(xiàn)率,如表1所示,前26 個(gè)主成分累積貢獻(xiàn)率達(dá)99.99%,反映了原光譜矩陣的全部光譜信息。因此,本實(shí)驗(yàn)選擇將每個(gè)樣本的光譜數(shù)據(jù)用前26 個(gè)主成分代替,作為支持向量機(jī)分類器的輸入向量,進(jìn)行支持向量機(jī)算法的食源性致病菌的識(shí)別研究。
表1 主成分累積貢獻(xiàn)率Table 1 Cumulative contribution rates of principal components
將72 個(gè)樣本的主成分得分作為支持向量機(jī)算法的訓(xùn)練集,余下的18 個(gè)樣本的主成分得分作為支持向量機(jī)算法的預(yù)測(cè)集,采用支持向量機(jī)方法對(duì)食源性致病菌進(jìn)行分類。
2.3.1 支持向量機(jī)算法及核函數(shù)
設(shè)訓(xùn)練集樣本為:
引入核函數(shù)K(xi,x),問(wèn)題變?yōu)橥ㄟ^(guò)非線性變換轉(zhuǎn)化到高維空間中求解最優(yōu)分類面的問(wèn)題,通過(guò)選擇核函數(shù),可以實(shí)現(xiàn)十分復(fù)雜的非線性分類。首先對(duì)ai求解下列函數(shù)的最大值。
并式(3)為分類函數(shù)
即為非線性支持向量機(jī)。其基本思想可概括為:通過(guò)非線性變換將輸入空間變換到一個(gè)高維空間,在這個(gè)新空間中求最優(yōu)線性分類面。
核函數(shù)形式一般有3類:
1)p階多項(xiàng)式形:
2)徑向基函數(shù)(radial basis function,RBF)形:
3)Sigmoid函數(shù)形:
本研究選用核函數(shù)為式(4)和(5)的支持向量機(jī)算法進(jìn)行模型識(shí)別能力的比較。
2.3.2 核參數(shù)的選擇
在核函數(shù)的核參數(shù)中,p的大小嚴(yán)重影響分類器分類的準(zhǔn)確性[20-23],因此,為了獲得一個(gè)很好的SVM分類器,本研究通過(guò)實(shí)驗(yàn)來(lái)選取最優(yōu)的p值。
在Matlab 7.0環(huán)境下進(jìn)行SVM算法的編程,實(shí)現(xiàn)兩種核函數(shù)下的SVM分類器,以訓(xùn)練集72 個(gè)樣本的26 個(gè)主成分向量為輸入數(shù)據(jù)建立模型。本實(shí)驗(yàn)中所選取的多項(xiàng)式核函數(shù)參數(shù)為1、2、3、4;所選取的RBF核函數(shù)參數(shù)為0.2、0.5、0.8、1.0、1.2、1.5、2.0、2.5。表2和表3分別表示了多項(xiàng)式分類器和RBF分類器在不同的核參數(shù)p值下對(duì)食源性致病菌的訓(xùn)練正確率。
表2 多項(xiàng)式核函數(shù)支持向量機(jī)訓(xùn)練集分類結(jié)果Table 2 Identi fication results with polynomial SVM classi fiers for training set %
表3 RBF核函數(shù)支持向量機(jī)訓(xùn)練集分類結(jié)果Table 3 Identi fication results with RBF SVM classi fiers for training set %
由表2可知,當(dāng)多項(xiàng)式核函數(shù)參數(shù)為2時(shí)可得最佳分類結(jié)果,3 種菌的訓(xùn)練正確率分別為95.83%、100%、95.83%。當(dāng)核參數(shù)大于2時(shí),其分類結(jié)果變化不大,核參數(shù)為1的多項(xiàng)式核函數(shù)支持向量機(jī)是線性的,其分類效果最差,3 種菌的訓(xùn)練正確率僅僅為83.33%、87.5%、75%。表3結(jié)果顯示,當(dāng)RBF核函數(shù)參數(shù)為0.5時(shí),可得最佳訓(xùn)練結(jié)果。對(duì)大腸桿菌、單增李斯特菌、金黃色葡萄球菌的訓(xùn)練正確率分別為100%、100%、100%。
由表2和表3可確定兩種核函數(shù)支持向量機(jī)最佳核參數(shù),多項(xiàng)式核函數(shù)參數(shù)為2,RBF核函數(shù)參數(shù)為0.5。以確定的兩種核函數(shù)支持向量機(jī)在最佳核參數(shù)對(duì)食源性致病菌近紅外光譜進(jìn)行預(yù)測(cè),其結(jié)果如表4所示。由表4可知,選擇RBF核函數(shù)的支持向量機(jī)對(duì)食源性致病菌近紅外光譜的分類效果優(yōu)于多項(xiàng)式核函數(shù)的支持向量機(jī)。RBF核函數(shù)的支持向量機(jī)對(duì)大腸桿菌O157∶H7、單增李斯特菌、金黃色葡萄球菌的預(yù)測(cè)正確率均為100%。
表4 兩種核函數(shù)支持向量機(jī)對(duì)食源性致病菌的預(yù)測(cè)結(jié)果Table 4 Identi fication results for food-borne bacteria with the two classi fiers
為考察主成分方法對(duì)原始數(shù)據(jù)的壓縮性能,利用表1中前13 個(gè)主成分作為支持向量機(jī)分類器的輸入向量,采用前述所選用核函數(shù)參數(shù)(即多項(xiàng)式參數(shù)為2,RBF參數(shù)為0.5),重新進(jìn)行支持向量機(jī)算法的食源性致病菌識(shí)別研究,其結(jié)果與以26 個(gè)主成分為支持向量機(jī)分類器的輸入量進(jìn)行計(jì)算的結(jié)果一致。說(shuō)明前13 個(gè)主成分即可表征原數(shù)據(jù)特征而不丟失信息,因此可以選擇前13 個(gè)主成分作為輸入量,進(jìn)一步達(dá)到壓縮數(shù)據(jù)的目的。
本實(shí)驗(yàn)以近紅外光譜法結(jié)合支持向量機(jī)對(duì)3 種食源性致病菌進(jìn)行了分類鑒別,以RBF函數(shù)與多項(xiàng)式函數(shù)為核函數(shù),確定了RBF核函數(shù)與多項(xiàng)式核函數(shù)的最佳核參數(shù)分別為0.5和2。對(duì)最佳核參數(shù)下的兩種核函數(shù)支持向量機(jī)的分類性能進(jìn)行比較,以RBF為核函數(shù)的支持向量機(jī)對(duì)3 種食源性致病菌判別能力優(yōu)于多項(xiàng)式核函數(shù),其預(yù)測(cè)正確率均達(dá)100%。分別以前26 個(gè)主成分和前13 個(gè)主成分作為支持向量機(jī)分類器輸入向量,結(jié)果顯示,以前13 個(gè)主成分作為支持向量機(jī)分類的輸入向量的結(jié)果與以前26 個(gè)主成分作為輸入向量的計(jì)算結(jié)果一致,說(shuō)明前13 個(gè)主成分即可表征原變量的數(shù)據(jù)特征,且不丟失信息。
基于支持向量機(jī)的食源性致病菌近紅外光譜鑒別技術(shù),融合了近紅外光譜技術(shù)的快速、環(huán)保、穿透性強(qiáng)與支持向量機(jī)的高泛化能力,以及克服傳統(tǒng)方法的大樣本要求等特點(diǎn)。與現(xiàn)有的檢測(cè)技術(shù)相比,該技術(shù)具有安全高效、操作簡(jiǎn)便、結(jié)果準(zhǔn)確、實(shí)時(shí)在線、節(jié)約成本等優(yōu)點(diǎn)。盡管本研究取得了較好的結(jié)果,但由于近紅外光譜技術(shù)本身的局限性與實(shí)際生產(chǎn)中的復(fù)雜多樣性,要將該技術(shù)在未來(lái)的檢測(cè)工作中進(jìn)行推廣與應(yīng)用,今后的研究工作應(yīng)致力于新的處理方法及對(duì)近紅外光譜有特異吸收的致病菌組分的研究,為開(kāi)發(fā)研制便攜式食源性致病菌快速檢測(cè)儀和生產(chǎn)用食源性致病菌快速在線檢測(cè)分析系統(tǒng)提供理論依據(jù)和技術(shù)支持。
[1]樊永祥, 劉秀梅.食源性疾病控制與餐飲食品安全管理[J].國(guó)外醫(yī)學(xué): 衛(wèi)生學(xué)分冊(cè), 2006, 33(3): 170-175.
[2]張紅波.我國(guó)食品安全現(xiàn)狀分析及其對(duì)策[J].中國(guó)安全科學(xué)學(xué)報(bào),2004, 14(1): 15-17.
[3]李君文, 晁福寰, 靳連群, 等.基因芯片技術(shù)快速檢測(cè)水中常見(jiàn)致病菌[J].中華預(yù)防醫(yī)學(xué)雜志, 2002, 36(4): 238-240.
[4]ANTHONY R M, BROWN T J, FRENCH G L.Rapid diagnosis of bacterium by universal ampli fication of 23S ribosomal DNA followed by hybridization to a noligonucleotide array[J].Journal of Clinical Microbiology, 2000, 38(20): 781-788.
[5]CARL F, ADMAN C F.Pathogen analysis and isothermal ampli fication[J].Journal of Investigative Medicine, 2000, 2: 93-101.
[6]吳影, 陸徐忠, 趙偉, 等.多重PCR分析法應(yīng)用于轉(zhuǎn)基因農(nóng)作物的檢測(cè)[J].安徽農(nóng)業(yè)科學(xué), 2006, 34(7): 1297-1299.
[7]KAWASAKI S, HORIKOSHI N, OKADA Y, et al.Multiplex PCR for simultaneous detection ofSalmonellaspp.,Listeria monocytogenes,andEscherichia coliO157:H7 in meat samples[J].Journal of Food Protect, 2005, 68(3): 551-556.
[8]張?bào)w銀, 邵碧英, 鄭晶, 等.免疫磁珠捕獲-通用引物PCR快速檢測(cè)食品中致病菌的研究[J].中國(guó)食品學(xué)報(bào), 2010, 10(2): 175-180.
[9]徐霞, 成芳, 應(yīng)義斌.近紅外光譜技術(shù)在肉品檢測(cè)中的應(yīng)用和研究進(jìn)展[J].光譜學(xué)與光譜分析, 2009, 29(7): 1876-1880.
[10]METTE H, FLEMMING H, LAESEN T, et al.Characterization of marama bean (Tylosema esculentum) by comparative spectroscopy:NMR, FT-Raman, FT-IR and NIR[J].Food Research International,2011, 97(10): 373-384.
[11]馮尚源, 陳榮, 李永增, 等.人血紅細(xì)胞傅里葉變換紅外和近紅外拉曼光譜[J].光譜學(xué)與光譜分析, 2005, 25(5): 712-714.
[12]HERKERK T, PRINZ H.One hundred percent online identify check of pharmaceutical products by near-infrared spectroscopy on the packaging line[J].Pharmaceutics and Biopharmaceutics, 2001, 51(1): 9-16.
[13]BUCKTON G, YONEMOCHI E, HAMMOND J, et al.The use of infrared spectroscopy to detect changes in the form of amorphous and crystalline lactose[J].Pharmaceutics, 1998, 168: 231-241.
[14]LIU Fei, HE Yong.Classification of bands of instant noodles using Vis/NIR spectroscopy and chemometrics[J].Food Research International, 2008, 41: 526-567.
[15]趙國(guó)梁.近紅外光譜技術(shù)及其在合成纖維工業(yè)中的應(yīng)用[J].合成纖維工業(yè), 2005, 28(3): 43-46.
[16]CORTES C, VAPNIK V.Support-vector networks[J].Machine Learning, 1995, 20(3): 273-297.
[17]吳靜珠, 王一鳴, 張小超, 等.支持向量機(jī)-近紅外光譜法用于真假奶粉的判別[J].農(nóng)機(jī)化研究, 2007(1): 155-158.
[18]李國(guó)正, 王猛, 曾華軍.支持向量機(jī)導(dǎo)論[M].北京: 電子工業(yè)出版社,2004: 3.
[19]鄧乃揚(yáng), 田英杰.數(shù)據(jù)挖掘中的新方法: 支持向量機(jī)[M].北京: 科學(xué)出版社, 2004: 6.
[20]榮海娜, 張葛祥, 金煒東.系統(tǒng)便始終支持向量機(jī)核函數(shù)及其參數(shù)的研究[J].系統(tǒng)仿真學(xué)報(bào), 2006, 18(11): 3204-3226.
[21]林顥, 趙杰文, 陳全勝, 等.近紅外光譜結(jié)合一類支持向量機(jī)算法檢測(cè)雞蛋的新鮮度[J].光譜學(xué)與光譜分析, 2010, 30(4): 929-932.
[22]張海云, 彭彥昆, 王偉, 等.基于光譜技術(shù)和支持向量機(jī)的生鮮豬肉水分含量快速無(wú)損檢測(cè)[J].光譜學(xué)與光譜分析, 2012, 32(10): 2794-2798.
[23]安欣, 蘇時(shí)光, 王韜, 等.復(fù)合支持向量機(jī)方法及其在光譜分析中的應(yīng)用[J].光譜學(xué)與光譜分析, 2007, 27(8): 1619-1621.