唐逸蕓,劉 芮,王 潞,呂慧英,唐忠海*,肖 航,郭時(shí)印,范 偉*
1. 湖南農(nóng)業(yè)大學(xué)食品科學(xué)技術(shù)學(xué)院,湖南 長(zhǎng)沙 410128 2. 云南省煙草公司保山市公司,云南 保山 678000 3. Department of Food Science, University of Massachusetts, Amherst, MA 01003, USA 4. 湖南省菜籽油營(yíng)養(yǎng)健康與深度開發(fā)工程技術(shù)研究中心,湖南 長(zhǎng)沙 410128
自2008年出現(xiàn)三聚氰胺重大食品安全事故以來,人們對(duì)食品真實(shí)性問題高度關(guān)注, 食品欺詐是一種以經(jīng)濟(jì)利益為驅(qū)動(dòng)的故意行為,包括“故意替換、 添加、 篡改或虛報(bào)食品成分或食品包裝或進(jìn)行虛假宣傳,或關(guān)于產(chǎn)品的虛假以及誤導(dǎo)性聲明”[1]。其中摻假作為欺詐的一種類型,因摻假物的種類性質(zhì)不同往往會(huì)引發(fā)食品安全問題,面對(duì)全球食品摻假的頻繁發(fā)生,促使各國(guó)政府更加重視食品真?zhèn)舞b別,在我國(guó),《食品安全法》中對(duì)食品生產(chǎn)過程中的食品摻雜摻假、 標(biāo)簽虛假和針對(duì)監(jiān)管的各類信息欺詐的違法行為有詳細(xì)規(guī)定[2]。為了保障食品安全和消費(fèi)者權(quán)益,發(fā)展有效的檢測(cè)方法至關(guān)重要。
常用的色譜和質(zhì)譜等基于化學(xué)成分分析的檢測(cè)方法一般包括復(fù)雜的前處理,還存在著檢測(cè)周期長(zhǎng)、 需消耗有毒有害化學(xué)試劑、 檢測(cè)成本高、 需破壞樣本等缺點(diǎn)。隨著近代儀器分析的飛速發(fā)展,無損快速檢測(cè)成為食品認(rèn)證的重要研究方向[3]。光譜技術(shù),如常用的近紅外、 中紅外以及拉曼等振動(dòng)光譜技術(shù),有彌補(bǔ)傳統(tǒng)檢測(cè)技術(shù)的缺陷的可能性,它們憑借著需要較少的制備樣品時(shí)間,以及快速和、 非破壞性和綠色環(huán)保等特點(diǎn),近年來,多被使用為檢測(cè)樣本中摻雜物的替代分析方法[4]。
光譜技術(shù)存在特異性低的缺點(diǎn),如果摻入物的成分幾乎接近于原物,兩者的光譜差異在肉眼下看起來很難區(qū)分,需要借助數(shù)學(xué)建模將這些信息放大從而找到兩者之間的區(qū)別,這種復(fù)雜的統(tǒng)計(jì)學(xué)方法是根據(jù)樣品的相似性將光譜信息(即每個(gè)波長(zhǎng)的強(qiáng)度)轉(zhuǎn)換成新的變量或類別響應(yīng)。在過去十年中,已有許多統(tǒng)計(jì)學(xué)方法與分析測(cè)量相結(jié)合,被開發(fā)應(yīng)用于質(zhì)量評(píng)估、 產(chǎn)品可追溯性,地理來源的定義和檢測(cè)食品真?zhèn)蝃5]。如主成分分析(PCA)、 聚類分析(HCA)等廣泛使用的非監(jiān)督方法是簡(jiǎn)單有效的分類方法,在沒有任何數(shù)據(jù)先驗(yàn)的情況下通過降低數(shù)據(jù)維數(shù)來識(shí)別樣本之間的異同[6]。另一方面,線性判別分析(LDA)、 偏最小二乘判別分析(PLS-DA)和簇類獨(dú)立軟模式(SIMCA)等監(jiān)督方法是基于來自特定樣本的先驗(yàn)信息生成分類模型,分類用途更廣。支持向量機(jī)(SVM)、 人工神經(jīng)網(wǎng)絡(luò)(ANN)、 隨機(jī)森林(RF)等機(jī)器學(xué)習(xí)通過學(xué)習(xí)如何組合輸入信息對(duì)從未知數(shù)據(jù)做出有用的預(yù)測(cè)。
Oliveri等[7]得出結(jié)論,在正確定義所有的類別,且包含的樣本代表每個(gè)類的前提下,傳統(tǒng)的分類方法使用所有類的貢獻(xiàn),在兩個(gè)或更多個(gè)類之間尋找定界符以區(qū)分純樣本和摻有多種已知物的摻假樣本。Rodionova等[8]在一篇關(guān)于應(yīng)用于食品認(rèn)證的化學(xué)計(jì)量學(xué)方法的詳細(xì)綜述中表示,像判別分析這種分類方法常在代謝組學(xué),基因組學(xué)和其他組學(xué)中應(yīng)用,至于認(rèn)證問題,單類分類方法顯示更可靠的結(jié)果。
1996年,Moya等[9]在研究工作中首創(chuàng)了單類分類這一術(shù)語(one-class classification,OCC),2001年,Tax[10]進(jìn)一步闡述和總結(jié)了此方法,表明單類分類方法已經(jīng)成為模式識(shí)別的一個(gè)重要分支。不同的研究人員根據(jù)應(yīng)用場(chǎng)景的不同來表示類似的概念,如奇異值檢測(cè)、 新奇檢測(cè)或概念學(xué)習(xí)等。近年來,單類分類法受到越來越多的關(guān)注[11],其最終結(jié)果是回答決策問題中新樣本是否屬于目標(biāo)類。關(guān)于其分類,根據(jù)原理大致可分為四類: 第一類是密度估計(jì)法,第二類基于神經(jīng)網(wǎng)絡(luò)的方法,第三類是基于聚類的方法,第四類是基于支持域的方法[12]。
為了進(jìn)一步闡述單類分類方法在摻假鑒別中的作用,圖1模擬了同一情景下不同分類方法的比較情況:
(1) 紫色的圓點(diǎn)表示有一定數(shù)量基礎(chǔ)的真實(shí)樣本T。
(2) 藍(lán)色,綠色,黃色,紅色的圓點(diǎn)分別代表不同較少數(shù)量的摻假類別(A,B,C,D),分別將其加入到真實(shí)樣本T中。
(3) 用多類分類方法分類建模后得到不同模型TA,TB,TC,而未知樣本類別D未能識(shí)別出來。
(4) 用單類分類方法分類建模后得到兩大類模型,真實(shí)類別T,其余為摻假類別ABCD。
圖1 不同分類方法的示意圖Fig.1 Schematic diagram of different classification methods
采用多類分類方法進(jìn)行分類時(shí),在含有已知摻假樣本的情況下需要建立不同的模型分別將它們識(shí)別出來,但如果摻入未知樣本,由于事先并未對(duì)其進(jìn)行過訓(xùn)練,使用該方法效果不佳。相比之下,單類分類方法通常是檢測(cè)多重?fù)郊俚母眠x擇,因?yàn)樗恍枰谜鎸?shí)的樣本來建立分類模型,該模型可以識(shí)別任何不同于此的樣本為摻假樣本,不僅是圖中所示的這幾種,之后摻入的任何不同于真實(shí)樣本(E,F(xiàn),G,…)的都會(huì)歸類為摻假樣本,大大減少了分類工作。
結(jié)合高斯函數(shù)原理,采用matlab分別模擬了三組數(shù)量為1000的光譜數(shù)據(jù),一組為含三個(gè)峰的真實(shí)樣品(圖2),對(duì)于摻假組,為了更好地比較兩種方法的分類結(jié)果,采用了兩種摻假形式,一種是模擬了摻入有三種不同種類的物質(zhì)(圖3),而另一種模擬了摻入一類樣品(圖4),取不同數(shù)量的真假數(shù)據(jù)(5/50/500/1 000),模擬在樣品平衡以及差異值很大的情況下,用PLS-DA法和OCPLS法分別代表多類分類方法和單類分類方法來驗(yàn)證分類效果,結(jié)果見表1和表2,其中敏感性表示模型正確分類目標(biāo)樣本的能力,特異性表示模型正確分類非目標(biāo)樣本的能力。
如表1和表2所示,無論在同類還是不同類的情況下,當(dāng)真實(shí)樣本數(shù)量極少時(shí),單類分類方法無法識(shí)別大量的摻假樣本,而多類分類方法效果很好,這也表明單類分類方法要求一定的真實(shí)樣本數(shù)據(jù),而隨著真實(shí)樣本的不斷增多,單類分類方法的結(jié)果出現(xiàn)逆轉(zhuǎn),即使在摻假樣本極少的情況下,依然有100%的分類結(jié)果,證明了這種方法在處理極端值問題的優(yōu)越性。對(duì)比表1和表2,在同等數(shù)據(jù)數(shù)量的情況下,摻入有不同種類的樣本時(shí),PLS-DA方法的分類結(jié)果低于摻入同類樣本的結(jié)果,而OCPLS不受摻入物類別影響。
圖2 真實(shí)樣本模擬數(shù)據(jù)圖Fig.2 Simulated data graph ofactual sample
圖3 摻假樣本(三種)模擬數(shù)據(jù)圖Fig.3 Simulated data graph of adulteratedsamples (three classes)
圖4 摻假樣本(一種)模擬數(shù)據(jù)圖Fig.4 Simulated data graph of adulteratedsamples (one class)
表1 模擬不同種類摻假物的分類結(jié)果Table 1 Classification results of simulatedadulterants of different classes
表2 模擬一類摻假物的分類結(jié)果Table 2 Classification results of simulatedadulterants of one class
歸納多類分類方法的不足:首先,它依賴于定義明確的類別來訓(xùn)練模型,并且決策邊界是根據(jù)來自每個(gè)類的示例樣本決定的,還需要有關(guān)摻假物的信息[7],分類結(jié)果旨在將未知數(shù)據(jù)對(duì)象分類為幾個(gè)預(yù)定義類別之一(在最簡(jiǎn)單的二進(jìn)制分類情況下為兩個(gè))。然而當(dāng)未知數(shù)據(jù)對(duì)象不屬于這些類別時(shí),就會(huì)出現(xiàn)問題,而現(xiàn)實(shí)生活中的摻假物通常是未知的,當(dāng)處理未知來源的食品完整性問題時(shí),這種監(jiān)督方法往往會(huì)失敗。在樣本數(shù)量相對(duì)平衡的理想情況下,分類面位于分類樣本之間,能夠較好地區(qū)分開來,但在樣本數(shù)量差異較大的不平衡情況下,如果摻假樣本太少,傳統(tǒng)分類方法的分類面會(huì)明顯向少的樣本側(cè)偏移,導(dǎo)致分類精度較低,而在現(xiàn)實(shí)生活中常出現(xiàn)這種情況,比如機(jī)械故障檢測(cè),網(wǎng)絡(luò)入侵檢測(cè)醫(yī)學(xué)診斷問題中,采集的樣本大部分都是正常樣本,很少出現(xiàn)異常數(shù)據(jù)。還有一種可能是異常樣本量太大,比如在人臉檢測(cè),目標(biāo)檢索和字符檢測(cè)過程中,雖然異常樣本容易獲得,但是異常樣本的類型太多,幾乎不可能全部獲得。因此,當(dāng)樣本數(shù)量不平衡問題嚴(yán)重時(shí),傳統(tǒng)分類方法不能獲得很高的分類精度。
單類分類方法已被應(yīng)用于醫(yī)學(xué)問題[13],人臉圖像識(shí)別[14],故障檢測(cè)[15],遙感分類[16]等,如下述幾種單類方法。
SIMCA(簇類獨(dú)立軟模式)是一種基于主成分分析(PCA)的建模技術(shù),采用PCA模型參數(shù)和F檢驗(yàn)構(gòu)造計(jì)算T2ucl和Q統(tǒng)計(jì)量作為樣本分類的新屬性, 并計(jì)算待測(cè)樣本到各類主成分空間的歐式距離作為判別類別的依據(jù), 是一種常用的分類方法[17]。
DD-SIMCA是對(duì)原SIMCA關(guān)于構(gòu)建接受邊界方式的修改,作為PCA和SIMCA的結(jié)合,用于開發(fā)一個(gè)決策規(guī)則(閾值),從所有其他樣本中劃分出目標(biāo)類。該方法還提供了一個(gè)理論上的可能性計(jì)算模型的特點(diǎn),如I型錯(cuò)誤α和Ⅱ型錯(cuò)誤β[18]。訓(xùn)練數(shù)據(jù)收集在(IXJ)矩陣X中,I是樣本的數(shù)量,J是變量的數(shù)量。計(jì)算一般分為兩步,首先,DD-SIMCA將PCA應(yīng)用于X矩陣。主成分(PCs)的個(gè)數(shù)A決定了模型的復(fù)雜度,該參數(shù)從根本上影響了分類的質(zhì)量。A值越大,X的大部分變化被PCA分解解釋。同時(shí),在主成分分析中包含多余的成分可能導(dǎo)致模型不僅考慮了主要的類特征,而且還考慮了不相關(guān)的噪聲。因此,在選擇模型復(fù)雜度時(shí),往往采用簡(jiǎn)約原則。第二步,DD-SIMCA從訓(xùn)練集中計(jì)算每個(gè)對(duì)象的兩個(gè)距離,即正交(歐氏)距離(OD)和分?jǐn)?shù)(馬氏)距離(SD)。SD表示樣本在分?jǐn)?shù)空間中的位置,OD表示樣本到分?jǐn)?shù)空間的距離。DD-SIMCA發(fā)現(xiàn)了表征這些距離分布的參數(shù)的數(shù)據(jù)驅(qū)動(dòng)估計(jì),因此可以為給定的值開發(fā)一個(gè)接受區(qū)域/決策規(guī)則[19]。此外,當(dāng)可選類可用時(shí),DD-SIMCA提供了計(jì)算Ⅱ型β誤差并構(gòu)建相應(yīng)的擴(kuò)展接受區(qū)域的可能性,保證了從備選類中接受樣本的風(fēng)險(xiǎn)不大于β[18]。分類結(jié)果用“靈敏性”(sensitivity)和“特異性”(specificity)來描述,或者用傳統(tǒng)的統(tǒng)計(jì)術(shù)語,如Ⅰ型誤差α和Ⅱ型誤差β。敏感性表示目標(biāo)類中正確識(shí)別的樣本的份額。特異性是可選類對(duì)象的一部分,它被正確地標(biāo)識(shí)為該類的數(shù)量。根據(jù)統(tǒng)計(jì)學(xué)術(shù)語,敏感性可定義為100(1-α)%,特異性為100(1-β)%[20]。
雖然各種算法已經(jīng)發(fā)展起來,但最常用的仍然是偏最小二乘法(PLS),它被公認(rèn)為化學(xué)計(jì)量學(xué)的基石,其理論和性質(zhì)得到了廣泛的研究[21]。
OCPLS是一種基于PLS的特殊分類算法,被認(rèn)為是SIMCA的替代方法。它是一種在化學(xué)計(jì)量學(xué)中日益受到關(guān)注的單類方法,作為一種非線性和魯棒性算法,它可以減少非線性和異常值污染數(shù)據(jù)集的影響,在建立OCPLS模型時(shí),可以得到兩種自然距離度量。一個(gè)是基于由主要的OCPLS成分從一個(gè)樣本到類的中心跨越的分?jǐn)?shù)距離(SD);另一個(gè)是響應(yīng)變量為1的絕對(duì)中心殘差(ACR)??梢杂?jì)算出樣本的Hotelling’s T2統(tǒng)計(jì)量,并通過計(jì)算F分布可以得到SD的置信上限(UCL),再計(jì)算模型殘差。樣本的殘差可以被假定為一個(gè)正態(tài)分布,有一個(gè)估計(jì)均值和一個(gè)估計(jì)標(biāo)準(zhǔn)差。樣本的殘差可以集中為零均值。因此,可以得到類內(nèi)樣本的ACR的UCL。ACR值實(shí)際上是OCPLS回歸系數(shù)向量上投影的度量,而OCPLS模型的一個(gè)組成部分可以看作是一個(gè)樣本在訓(xùn)練集的平均光譜上的投影。一般來說,類內(nèi)樣本的投影到平均頻譜上有相當(dāng)長(zhǎng)的長(zhǎng)度和分布緊密,這意味著OCPLS組件考慮了兩者解釋方差和預(yù)測(cè)的緊致性。對(duì)于一個(gè)樣本,過大的SD或ACR值表明它明顯偏離類的大部分。根據(jù)ACR和SD的值,一個(gè)未知的測(cè)試樣本可以分配給一個(gè)四組: 正常樣本(低SD和低ACR值),壞杠桿樣本(高SD和高ACR值),良好的杠桿樣本(高SD和低ACR值)和響應(yīng)異常值(低SD和高ACR值),正常樣本被視為真實(shí)樣本,而其他三種被認(rèn)為是摻假的或者偽造的樣本[22]。
SVM(支持向量機(jī))的目標(biāo)是通過最大化分離超平面和數(shù)據(jù)之間的距離或余量,找到一個(gè)泛化誤差最小的最優(yōu)超平面[23]。
單類支持向量機(jī)(OCSVM)是原始SVM算法的變體[24]。在高維空間中給定一組訓(xùn)練數(shù)據(jù),OCSVM就是在一個(gè)變換的空間中尋找超平面,該空間將大部分?jǐn)?shù)據(jù)集中的區(qū)域與其他地方分開[25]。對(duì)超平面參數(shù)進(jìn)行估計(jì),使其與訓(xùn)練數(shù)據(jù)相關(guān)的余量最大化。因此,它是尋找訓(xùn)練點(diǎn)與原點(diǎn)最大間隔或確定包含同一類訓(xùn)練數(shù)據(jù)的最小超球體的最有效方法之一。數(shù)據(jù)分類包括檢查測(cè)試樣本是否屬于超球體。OCSVM的運(yùn)行時(shí)性能取決于支持向量機(jī)的數(shù)量(SVs),這可能比訓(xùn)練樣本的數(shù)量少得多。在摻假檢測(cè)的背景下,從真實(shí)樣品中識(shí)別所有可能的摻假樣品是至關(guān)重要的。實(shí)際上,OCSVM計(jì)算出容納大多數(shù)訓(xùn)練點(diǎn)的“邊界”,如果測(cè)試樣品落在此界限內(nèi),則歸類為真實(shí)樣本;否則,它被視為摻假樣本。
OCSVM算法是一種用途廣泛的分類器,能夠應(yīng)用于負(fù)類樣本難以收集的領(lǐng)域中[26],已用于許多不同的領(lǐng)域,例如工程[27]、 地質(zhì)[28],提供了有意義的結(jié)果。盡管OCSVM在解決復(fù)雜問題方面表現(xiàn)出色,但在化學(xué)中并未得到充分利用[29],只有少數(shù)研究將該算法應(yīng)用于分析目的,比如使用氣相色譜法結(jié)合OCSVM檢測(cè)芝麻油中的摻假[30],還有應(yīng)用 OCSVM 作為異常值檢測(cè)器來追蹤茶葉的地理來源[31]。目前結(jié)合OCSVM和光譜學(xué)用于食品認(rèn)證的化學(xué)研究還少被涉及,這也是未來趨勢(shì)。
隨機(jī)森林(RF)作為通用的集成技術(shù)之一,使用隨機(jī)化產(chǎn)生不同的基于個(gè)體樹的分類器池[32]。隨機(jī)森林算法使用了兩個(gè)強(qiáng)大的隨機(jī)化過程: 打包(bagging)和隨機(jī)特征選擇(random feature selection, RFS)。第一個(gè)原則,bagging是在訓(xùn)練集的引導(dǎo)副本上訓(xùn)練每個(gè)單獨(dú)的樹,通常用于在各個(gè)分類器之間創(chuàng)建預(yù)期的多樣性,并且對(duì)于不穩(wěn)定的分類器特別有效,例如基于樹的分類器,其中訓(xùn)練集的小變化導(dǎo)致預(yù)測(cè)的大變化。第二個(gè)原則,RFS是一個(gè)隨機(jī)原則,專門用于樹歸納算法。當(dāng)生長(zhǎng)成樹時(shí),包括在樹的每個(gè)節(jié)點(diǎn)隨機(jī)選擇特征子集,從中選擇分裂測(cè)試。RFS有助于降維,并已被證明比單獨(dú)bagging顯著提高隨機(jī)森林精度。
而單類隨機(jī)森林(OCRF),是在隨機(jī)森林算法的基礎(chǔ)上增加了原始異常值生成過程,該過程利用隨機(jī)森林算法提供的集成學(xué)習(xí)機(jī)制來減少要生成的人工異常值的數(shù)量以及生成這些異常值的特征空間的大小[33]。OCRF方法具有以下優(yōu)點(diǎn): (1)組合弱分類器和不穩(wěn)定分類器的不同集合,明確提高了單個(gè)分類器的泛化性能,(2)依據(jù)訓(xùn)練樣本和特征對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行子采樣,以便通過控制它們的位置和數(shù)量有效地生成輸出。
作為人體必需的三大營(yíng)養(yǎng)素來源之一的食用油,其摻假是消費(fèi)者和油脂加工業(yè)的首要擔(dān)憂,摻假主要有兩種類型,一種是冷榨油和精煉油的混合,一種是用便宜的食物機(jī)制代替昂貴的食物機(jī)制。
Rodriguez等[34]用傅里葉變換紅外光譜結(jié)合OCPLS和SIMCA檢測(cè)以1%,2%,5%和10%四種不同的比例摻入到芝麻油中四種可能的摻雜物的存在。結(jié)果表明,在預(yù)測(cè)誤差1%~5%內(nèi),用這種方法檢測(cè)摻假的奇亞籽油和芝麻油是成功的,且OCPLS比SIMCA的鑒別性能稍高一點(diǎn),也體現(xiàn)了單類分類方法的優(yōu)越性。Hu等[35]基于OCPLS近紅外光譜和熒光光譜數(shù)據(jù)融合,采用快速分析證實(shí)了中國(guó)油茶中摻入廉價(jià)植物油的可行性。結(jié)果表明,魯棒的OCPLS可以檢測(cè)摻有2%及以上的包括菜籽油、 葵花籽油、 玉米油和花生油的廉價(jià)油。Neves等[36]評(píng)估了傅里葉變換衰減全反射紅外光譜法結(jié)合DD-SIMCA檢測(cè)初榨椰子油的摻假性能,通過測(cè)定純油樣品和摻有油菜籽油、 玉米油、 向日葵油和大豆油樣品的紅外光譜,用單類分類模型來判定初榨椰子油的真實(shí)性和摻假性,最后以88%~100%的靈敏度和96%~100%的特異性識(shí)別摻假油。
然而,單類分類模型也會(huì)出現(xiàn)分類效果弱于多分類情況,例如Gagneten等[37]于檢測(cè)菜籽油中的摻假物比較SIMCA,PLS-DA, DD-SIMCA 和OCPLS四種方法,結(jié)果表明用SIMCA,PLS-DA的準(zhǔn)確率略高于DD-SIMCA 和OCPLS。分析認(rèn)為某些波長(zhǎng)不包含必要的信息,可能會(huì)干擾模型的建立步驟,而如果通過適當(dāng)選擇輸入變量,選擇與目標(biāo)樣品特性高度相關(guān)的波長(zhǎng)范圍,分類結(jié)果可能會(huì)得到改善。Yuan等[38]采用近紅外光譜和OCPLS法對(duì)亞麻籽油進(jìn)行多重?fù)郊俚挠嗅槍?duì)性的檢測(cè),并且設(shè)計(jì)了一種變量選擇方法,以顯著減少變量數(shù)量,提高摻雜物檢測(cè)的準(zhǔn)確性。
為了達(dá)到質(zhì)量要求標(biāo)準(zhǔn),乳制品的摻假主要是通過添加化合物完成,一般有為了減少微生物的數(shù)量而添加過氧化氫、 甲醛或次氯酸鈉等被歸類為防腐劑的物質(zhì),以及添加氯化鈉、 淀粉或蔗糖等被歸類為增稠劑的物質(zhì)。
Gondim等[39]提出了一種采用中紅外光譜技術(shù)和單分類方法對(duì)牛奶中摻假成分進(jìn)行序列檢測(cè)的方法。模型采用低目標(biāo)摻假水平,包括甲醛、 過氧化氫、 碳酸氫鹽、 碳酸酯以及蔗糖等,因減少了所需要時(shí)間及成本和錯(cuò)誤的樣本數(shù)量,這種方法被認(rèn)為是一種有效的篩選方法。Muller-Maatsch等[40]將紫外可見熒光和近紅外光譜技術(shù)與單類分類方法相結(jié)合,以區(qū)分真正的脫脂奶粉和摻假奶粉,最后有86%的摻假樣品被正確地歸類為“不合格”。
飲料的摻假主要有兩種類型,一種是使用較便宜的水果來代替單一果漿中的主要成分,還有一種是對(duì)飲料進(jìn)行有關(guān)成分,真實(shí)性或地理起源的錯(cuò)誤標(biāo)簽標(biāo)識(shí)。
Xu等[41]采用傅里葉變換近紅外光譜對(duì)正宗板藍(lán)根茶的成分和類別模型進(jìn)行了表征,并對(duì)可能的外源性摻假物進(jìn)行了檢測(cè)。采用標(biāo)準(zhǔn)正態(tài)變換(SNV)得到最精確的OCPLS模型。結(jié)果表明,SNV-OCPLS可以檢測(cè)到板藍(lán)根中摻假量在5% (W/W)以上的蘋果干皮,為板藍(lán)根茶的快速質(zhì)量控制提供了一種有用的替代工具。Xu等[42]采用熒光法和化學(xué)計(jì)量學(xué)方法研究了獼猴桃汁中多種廉價(jià)物質(zhì)同時(shí)檢測(cè)的可行性,最后得到了靈敏度為0.929的OCPLS模型。該方法可以檢測(cè)出2%以上的糖漿和人造果粉摻假,為非靶向分析摻假獼猴桃汁提供了一種快速和高靈敏的方法。Miaw等[43]采用低場(chǎng)核磁共振光譜評(píng)價(jià)了蘋果汁、 腰果汁和混合果汁對(duì)葡萄蜜酒的摻假。采用OCPLS,DD-SIMCA和PLS-DA等分類方法進(jìn)行比較。結(jié)果表明,所有單類分類方法均具有良好的性能,分辨率高于93%,而多類方法分類結(jié)果不太滿意,這也凸顯了單類分類的優(yōu)勢(shì)。
藥用保健食品由于經(jīng)濟(jì)效益的原因,經(jīng)常被添加一些外觀相似的廉價(jià)材料,如粉末或提取物制造假冒偽劣的藥材制劑。
Li等[44]采用近紅外光譜和OCPLS建立了來自不同產(chǎn)地的代表性中草藥天麻樣品的類模型,對(duì)芋頭淀粉、 甘薯淀粉、 馬鈴薯淀粉和黃精粉4種常見外源性摻假物進(jìn)行了非靶向檢測(cè)。結(jié)果表明,經(jīng)過二階導(dǎo)數(shù)處理后的光譜OCPLS模型可以檢測(cè)出1.0%及以上的4種摻假物,靈敏度為0.910 7。Rodionova等[45]以牛至藥材摻假為例,采用判別分析和單類分類法分析了非目標(biāo)分析在食品欺詐檢測(cè)中的應(yīng)用所涉及的化學(xué)計(jì)量學(xué)問題。結(jié)果表明,判別方法只是部分適用于解決認(rèn)證問題,DD-SIMCA是用于非目標(biāo)分析的功能強(qiáng)大的分類器。在中國(guó),可食燕窩作為一種珍貴的功能性產(chǎn)品,需要建立一種可靠的方法來快速鑒定。Guo等[46]采用傅里葉變換紅外光譜結(jié)合PCA,LDA,SVM和OCPLS等化學(xué)計(jì)量學(xué)方法,驗(yàn)證了該系統(tǒng)識(shí)別的可行性。結(jié)果表明,OCPLS模型的預(yù)測(cè)靈敏度為0.937,特異度為0.886,對(duì)商業(yè)可食燕窩樣品的檢測(cè)有了進(jìn)一步的推進(jìn)。
香料用來給食物調(diào)味和改善菜肴的味道,色澤是香料的主要品質(zhì)屬性之一。常見的香料摻假是添加非法染料,人為地提高和保持香料的天然色澤,或掩蓋與低價(jià)值產(chǎn)品原料的混合。此外,香料的價(jià)格通常是由它們的重量或體積決定的,而另一種常見的香料摻假是添加便宜的膨化劑。
Horn等[47]采用傅里葉變換中紅外光譜和DD-SIMCA,基于不同預(yù)處理方法比較,建立了一種辣椒粉摻假的非靶向檢測(cè)方法,測(cè)試含1% (W/W)蘇丹Ⅰ、 1% (W/W)蘇丹Ⅳ、 3% (W/W)鉻酸鉛、 3% (W/W)氧化鉛、 5% (W/W)二氧化硅,10%的聚氯乙烯,10%的阿拉伯膠的摻假物。隨后他們[48]又將核磁共振波譜與單類分類法相結(jié)合用于辣椒粉摻假的非靶向檢測(cè),建立的單類分類模型靈敏度為92%,適合摻假篩查和與異常值診斷相結(jié)合。
谷物的品質(zhì)由摻入便宜的粉末及添加劑來改變蛋白質(zhì)含量、 淀粉含量或硬度。
Cardoso等[49]用拉曼光譜結(jié)合OCSVM和SIMCA對(duì)木薯淀粉樣品進(jìn)行改性,將摻假物如小麥粉、 碳酸氫鈉等以0.5%~50%的范圍摻入木薯淀粉中。對(duì)這兩種化學(xué)計(jì)量模型進(jìn)行統(tǒng)計(jì)比較,發(fā)現(xiàn)OCSVM優(yōu)于SIMCA,OCSVM檢測(cè)摻假率超過2%的可能性,而SIMCA檢測(cè)摻假率只有5%。Faqeerzada等[50]用高光譜短波紅外圖像結(jié)合DD-SIMCA對(duì)摻入不同比例花生粉的杏仁粉進(jìn)行了研究,建立了PLSR模型來預(yù)測(cè)杏仁粉中摻假比例。DD-SIMCA的分類結(jié)果對(duì)不同的摻假樣本驗(yàn)證集具有100%的敏感性和89%~100%的特異性。PLSR分析結(jié)果表明,每一種摻雜的杏仁粉具有較高的判定系數(shù)和較低的誤差值。Rodionova等[51]通過對(duì)大豆粕進(jìn)行近紅外光譜測(cè)量和DD-SIMCA進(jìn)行數(shù)據(jù)處理,鑒別出三聚氰胺、 氰尿酸和混合摻假物,證明了此方法的可靠性。
表3整理了上述單分類方法結(jié)合光譜分析在食品摻假檢測(cè)方面應(yīng)用的相關(guān)文獻(xiàn)。
表3 單類分類方法結(jié)合光譜分析在食品摻假檢測(cè)方面的應(yīng)用Table 3 Application of one-class classification combined with spectral analysis in food adulteration detection
光譜檢測(cè)技術(shù)是現(xiàn)階段比較常用的檢測(cè)技術(shù),將其應(yīng)用于食品質(zhì)量安全檢測(cè)中,不僅可以保證飲食安全,還能促進(jìn)光譜技術(shù)的發(fā)展。隨著多元統(tǒng)計(jì)學(xué)的不斷發(fā)展,分類方法在食品質(zhì)量安全檢測(cè)方面有了更深更廣的發(fā)展空間。多類分類方法的分析過程需要復(fù)雜的統(tǒng)計(jì)方法,精準(zhǔn)的建模和完善的算法,而單類分類方法只需要對(duì)目標(biāo)類進(jìn)行分類,確定好邊界后,其余可能不同的樣本都將與其分開,大大減少了分類的工作量。在現(xiàn)實(shí)生活中,可以先用此方法篩選出摻假的樣品,再對(duì)摻假樣品進(jìn)行定量調(diào)查。
在過去的幾年里,新的單類分類算法出現(xiàn)了,并在一些應(yīng)用領(lǐng)域得到了開發(fā)。盡管單類分類領(lǐng)域正在變得成熟,但仍有幾個(gè)基本問題有待研究,首先注意的是單類分類的任務(wù)是在正常類周圍定義一個(gè)分類邊界,這樣它可以從正常類中接受盡可能多的對(duì)象,同時(shí)最大限度地減少接受異常對(duì)象的機(jī)會(huì)。由于只能確定邊界的一邊,因此很難根據(jù)一個(gè)類別來確定邊界在數(shù)據(jù)周圍的每個(gè)方向上的緊密程度,也更難確定應(yīng)該使用哪些屬性來尋求正常和異常對(duì)象的最佳分離。特別是,當(dāng)數(shù)據(jù)的邊界長(zhǎng)且不凸時(shí),所需的訓(xùn)練對(duì)象的數(shù)量可能會(huì)非常高。所以,相對(duì)于傳統(tǒng)的多類分類算法,單類分類算法將需要更多的訓(xùn)練數(shù)據(jù)。其次,分類器集成方法需要進(jìn)一步探索,基于隨機(jī)子空間新技術(shù)值得關(guān)注,隨機(jī)預(yù)言集成在多類分類問題上表現(xiàn)得更好,OCRF是新出現(xiàn)的這一方面的方法,當(dāng)然,還可以進(jìn)行新的集成方法研究。而且在OCSVM中使用的內(nèi)核多數(shù)是線性,多項(xiàng)式以及高斯的,研究人員可以專注于有效調(diào)整和優(yōu)化核函數(shù)研究一些更具創(chuàng)新性的核形式。開發(fā)用于流式數(shù)據(jù)分析和在線分類的單類分類方法也是值得期待的??傊瑳]有一篇文獻(xiàn)指出單類分類方法要優(yōu)于多類分類方法,選擇最佳的分析和統(tǒng)計(jì)方法并不是一件容易的事情,這將取決于具體的食物真實(shí)性問題,因?yàn)樗械姆椒ǘ加袃?yōu)點(diǎn)和缺點(diǎn)。目前要做的,是需要不斷完善各類單類算法,并與多類分類方法相結(jié)合比較,得到對(duì)于不同類型樣品最適合的算法,取得最優(yōu)結(jié)果,進(jìn)一步監(jiān)測(cè)食品的質(zhì)量安全。