唐云峰,柴琴琴*,林雙杰,黃 捷,李玉榕,王 武
1. 福州大學電氣工程與自動化學院,福建 福州 350108 2. 福建省醫(yī)療器械和醫(yī)藥技術重點實驗室,福建 福州 350108
葡萄籽油是一種重要的食用、保健資源,長期食用葡萄籽油具有抗衰老、增強免疫力、促進生長發(fā)育、消除血清膽固醇等作用[1]。具有的營養(yǎng)價值和醫(yī)藥價值使其成為一種高級保健食用油。由于葡萄籽油的市場價格普遍高于大宗食用油,受利益驅(qū)動的不法分子將廉價食用油摻入葡萄籽油[2]。傳統(tǒng)方法進行品質(zhì)檢測時,從采樣到測量整個過程,工作量較大,例如采樣過程需要包裝、記錄、運輸,測量前還需破壞性預處理等,這樣的分析過程效率低、周期長,有時還會因化學試劑的使用引起環(huán)境污染[3]。為了保護消費者的合法權益和身體健康,規(guī)范食用油市場,現(xiàn)場快速鑒別摻偽的葡萄籽油具有現(xiàn)實意義。
近紅外光譜(near infrared spectroscopy, NIR)通過檢測含氫基團(—CH, —OH, —NH, —SH)的振動組合頻與倍頻的吸收來實現(xiàn)對目標物的鑒定,是一種高性能的、快速、綠色、高靈敏度的食品無損檢測方法,近年來已經(jīng)被廣泛地應用在食品安全的檢測中[4-7]。目前,我國近紅外光譜儀主要依賴進口,進口產(chǎn)品高昂的價格和脫節(jié)的售后技術服務阻礙了該技術在我國的普及,嚴重影響了我國應用技術水平的進步[3],實驗室通用的傅里葉近紅外光譜儀價格昂貴、操作環(huán)境要求高,并不適合現(xiàn)場檢測操作,研究一款低成本、準確度高的光譜檢測系統(tǒng)具有重大的實用價值,因此本文依托USB6500-Pro探測器搭建一個可見/近紅外光譜檢測平臺,可用于檢測葡萄籽油及摻入其他油類的葡萄籽油光譜數(shù)據(jù)。由于探測器廠家自帶的軟件僅作為光譜采集、操作復雜和無法顯示分類判別結(jié)果,本文基于Qt自行設計一套簡便、有效的人機交互界面的在線光譜檢測軟件,用以實現(xiàn)對光譜數(shù)據(jù)的采集、處理以及葡萄籽油摻假鑒別結(jié)果的顯示。
在高精度建模方法方面,極限學習機(extreme learning machine, ELM)算法訓練速度快、計算量小、具有優(yōu)異的泛化性能等,近年來廣泛應用到近紅外光譜的分析中[8-9]。王瑋等[8]提出酵母菌生長過程4個階段的CARS-ELM分類模型,其10次運行在訓練集和測試集中的平均識別率分別為98.68%和97.37%; 郭文川等[9]采用近紅外漫反射光譜,提出的UVE-SPA-ELM模型對采后貯藏10天內(nèi)預測集中損傷獼猴桃和無損獼猴桃的總正確識別率為92.4%。但是ELM預測效果取決于訓練集對模型訓練的好壞,只能預測訓練集中的已知的類別,上述應用都缺乏對新類別樣本的分類。而現(xiàn)實生活中,受利益驅(qū)使下層出不窮的摻假手段使得新的、未出現(xiàn)在原訓練集樣本中的摻假類別不斷涌現(xiàn),因此亟需一種能夠鑒別新?lián)郊兕悇e的方法。針對這個問題,以ELM算法與自動聚類算法為核心,本研究小組研制出一種快速真?zhèn)闻袆e檢測系統(tǒng),不僅實現(xiàn)已知摻假類別的判別,而且對新?lián)郊兕悇e也能定性分析,具有便攜、操作簡便、擴展性好、時間短等特點,符合現(xiàn)場檢測的要求。
實驗用葵花籽油、玉米油、大豆油、調(diào)和油和葡萄籽油,購買于本地的永輝超市。以葡萄籽油為溶劑,每次摻入單種一定量的其他食用油(大豆油、葵花籽油、玉米油和調(diào)和油)制備總體積均為200 mL摻雜葡萄籽油樣品,其中每次摻入的某種油品的體積(mL)分別為5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,170,180,190和200,充分振蕩搖勻,每組各有30個樣品,得到30個純葡萄籽油樣品和120個葡萄籽油摻假樣品。
研發(fā)的檢測系統(tǒng)的硬件平臺主要包含: 光源、樣品池、光纖、探測器和計算機。光源采用進口鹵鎢燈光源HL-2000,光纖為600 μm優(yōu)質(zhì)石英光纖,探測器的型號是USB6500-Pro,具體參數(shù)見表1。
表1 USB6500-Pro探測器參數(shù)
整個搭建好的硬件檢測平臺如圖1所示。光譜采集過程如下: 首先將葡萄籽油樣品裝入比色皿,然后給儀器光源和USB6500-Pro光譜儀上電,并進行2分鐘的預熱處理以保證光源的光強輸出穩(wěn)定和光譜儀穩(wěn)定工作,光源通過光纖將光照射進比色皿中,光線透過葡萄籽油樣品后通過光纖傳遞給探測器,最后探測器將采集到的光譜吸收率通過USB數(shù)據(jù)線傳送給計算機,然后用設計的光譜軟件進行采集。
圖1 檢測系統(tǒng)硬件平臺
為了實現(xiàn)對光譜數(shù)據(jù)的采集,基于Qt開發(fā)環(huán)境設計了一套具有簡便的人機交互界面在線光譜檢測軟件,軟件功能有: 光譜數(shù)據(jù)的采集、保存、數(shù)據(jù)處理及結(jié)果顯示,如圖2所示。該軟件有光譜數(shù)據(jù)采集區(qū),能有效采集USB6500-Pro光譜儀產(chǎn)生的光譜數(shù)據(jù),并對采集到的數(shù)據(jù)進行顯示和保存; 此外還有光譜數(shù)據(jù)處理區(qū),其中數(shù)據(jù)預處理則根據(jù)需要可以選擇合適的預處理方法,本文采用MSC處理方法,模型在線分析則將采集的光譜數(shù)據(jù)通過程序中的光譜鑒別設計算法判別出來,最后在軟件界面顯示光譜分類判別結(jié)果。
光譜鑒別方法是光譜處理軟件設計的關鍵部分。自動聚類算法采用快速搜索密度峰聚類算法[10](clustering by fast search and find of density peaks, CFSFDP),CFSFDP算法能夠自動確定聚類中心個數(shù),根據(jù)聚類中心個數(shù)就可以知道類別個數(shù)。因此在軟件設計部分主要采用ELM結(jié)合CFSFDP算法,簡稱ELM-CFSFDP算法,對ELM的預測結(jié)果用CFSFDP算法進行聚類驗證,鑒別方法設計如圖3所示,分為兩步:
第一步分類(ELM): 在建模數(shù)據(jù)庫中,利用訓練集樣本中的已知摻假類別(類別1—類別n)對ELM模型進行訓練,將待鑒別樣本x輸入到訓練好的ELM中,預測結(jié)果為類別m(m=1, 2, …,n)。但是當樣本x不屬于建模數(shù)據(jù)庫的已知摻假類別而是新?lián)郊兕悇e時,ELM的分類結(jié)果為類別1—n中的近似或相似類別,就會出現(xiàn)誤判。而在現(xiàn)實生活中檢驗葡萄籽油摻假時,事先并不知道待鑒別樣本是否屬于建模數(shù)據(jù)庫中,因此需要對分類結(jié)果進行校驗。
第二步基于聚類(CFSFDP)的結(jié)果校驗: 假設第一步ELM的分類結(jié)果為類別m,校驗集樣本中的有相同的類別m與之對應,然后將校驗集中類別m的樣本與待鑒別樣本x進行CFSFDP算法聚類,當產(chǎn)生一個聚類中心時,則待鑒別樣本x屬于類別1—n,為已知摻假類別,而聚類中心為兩個時,則待鑒別樣本x不屬于類別1—n,為新?lián)郊兕悇e。
圖2 檢測系統(tǒng)光譜軟件設計
圖3 光譜鑒別方法設計
1.5.1 極限學習機
極限學習機算法是2006年由Huang等[11]提出的一種新型單隱層前饋神經(jīng)網(wǎng)絡,設任意對于給定的N個不同的樣本{xi,ti|i=1, 2, …,N},其中xi=[xi1,xi2, …,xin]T∈Rn和ti=ti1,ti2, …,tim∈Rm,n和m分別表示其維度,wk為輸入節(jié)點與第k個隱含層節(jié)點的權值,bk為第k個隱含層節(jié)點的輸出偏置。單隱含層前饋網(wǎng)絡的輸入輸出的數(shù)學模型的表示為
(1)
式中,L為隱含層的個數(shù),G(·)為非線性連續(xù)激活函數(shù),βk=[βk1,βk2, …,βkm]T為連接第k個隱含層節(jié)點與輸出層的輸出權值向量,上述方程可以簡寫成如下形式
Hβ=T
(2)
式中,H為隱含層輸出矩陣,wk和bk在模型的訓練中是隨機取值的,因此,方程(2)的最小范數(shù)最小二乘解β為
(3)
式中,H+為隱含層輸出矩陣H的Moore-Penrose廣義逆。
1.5.2 聚類算法
Alex Rodriguez于2014年在Science上提出了一種聚類的新思路[10],簡稱為CFSFDP算法,該算法實現(xiàn)聚類中心自動確定是基于以下兩個假設: (1)聚類中心點具有較大的局部密度高于附近鄰居點密度值,聚類中心點被具有較低局部密度的鄰居點包圍,并且不同的聚類中心點有較大的距離; (2) 噪聲點具有較大的距離和相應較小的局部密度。
設聚類的數(shù)據(jù)集合J={xi|i=1, 2, …,N},對于要處理的數(shù)據(jù)xi∈Rq,q表示數(shù)據(jù)點的維度,每個數(shù)據(jù)點都需要計算相應的局部密度和最小距離
(4)
其中,dij表示不同兩個數(shù)據(jù)點xi與xj間的距離值,這里取歐氏距離值; 參數(shù)dc>0為截斷距離,為一個超參數(shù),根據(jù)文獻[10]描述采用可以使得每個數(shù)據(jù)點平均鄰居點數(shù)約占整個數(shù)據(jù)點總數(shù)的1%~2%。對于任意的數(shù)據(jù)xi,到具有更高局部密度的其他數(shù)據(jù)對象的最小距離δi的公式計算如式(5)
(5)
CFSFDP算法基于兩個假設,從而得出聚類中心點相比于非聚類中心點具有較高的局部密度ρ和最小距離δ值,通過計算求得每個數(shù)據(jù)點的ρ和δ值,以ρ和δ橫縱坐標的決策圖便能夠定性識別聚類中心數(shù),相比較于其他傳統(tǒng)的聚類算法,它能根據(jù)聚類中心自動聚類,因此也叫自動聚類算法。
用自己搭建的可見/近紅外光譜硬件平臺采集了純葡萄籽油和摻入不同比例的大豆油、玉米油、葵花籽油和調(diào)和油的葡萄籽油的共計5類油樣品的光譜前4類作為建模數(shù)據(jù)庫中的已知摻假類別,而第5類摻入調(diào)和油的葡萄籽油為新?lián)郊兕悇e。K-S算法是一種基于樣本光譜間歐氏距離的定標集劃分方法,通過K-S算法將已知摻假類別的每類樣本劃分成訓練集20組和測試集10組,同時將已知類別打上類別標簽1~4,新?lián)郊兕悇e全部作為測試集,訓練集用來實現(xiàn)軟件中的鑒別算法,測試集的數(shù)據(jù)用來測試光譜處理軟件的分類效果。最后得到樣本分配情況如表2所示。
表2 樣本分配表
采集的純葡萄籽油和摻入不同比例大豆油、玉米油、葵花籽油的樣品的可見/近紅外原始光譜如圖3所示。從圖可以看出,由于測量過程中存在雜散光、儀器不穩(wěn)定等因素,光譜存在大量的毛刺和噪聲,需要去噪處理。
圖4 原始可見/近紅外光譜圖
小波閾值去噪已廣泛應用于在光譜去噪中[12-13],小波變換去噪時,參數(shù)的不當設定可能誤將光譜部分特征信息當作噪音從光譜數(shù)據(jù)中剔除,進而影響模型精度。采用信噪比(SNR)與均方根誤差(RMSE)作為小波閾值法對光譜數(shù)據(jù)去噪的評價指標。在一定精度范圍要求下,SNR越大、RMSE越小,表明光譜數(shù)據(jù)中含有的噪聲被剔除的越多,特征信息保留的越充分[13]。
(6)
(7)
由于dbN系具有較好的正交緊支性[14],實驗用摻假75 mL其他油類的葡萄油和一組純葡萄籽油共計四組數(shù)據(jù),綜合考慮去噪后的光譜平滑度,最后小波基函數(shù)選擇db5小波、分解層數(shù)5層,閾值方案選為“rigrsure”,計算SNR和RMSE,如表3所示。
表3 去噪后的SNR和RMSE
表中可以看出,小波變換去噪后,有較高的SNR和較低的RMSE[13],符合后續(xù)分類要求。將其應用于所有的可見/近紅外光譜數(shù)據(jù),得到去噪后的光譜如圖5所示。
圖5 去噪后的可見/近紅外光譜圖
為了提高數(shù)學預測模型的穩(wěn)定性和魯棒性,分類器輸入一般都需要進行預處理,MSC算法能有效的消除散射的影響,修正基線平移和偏移影響,增強了與成分含量最相關光譜的吸收度信息,因此選擇MSC作為數(shù)據(jù)預處理。
去噪和預處理后的光譜數(shù)據(jù),按照表2,前4類(純葡萄籽油和摻入不同比例的大豆油、玉米油、葵花籽油)作為已知摻假類別,其中訓練集共80組數(shù)據(jù)用來實現(xiàn)鑒別算法,40組用來測試系統(tǒng)效果。測試結(jié)果如圖6所示,可以看出,利用開發(fā)的光譜處理軟件可達到100%的識別率,證明軟件是可用的。
圖6 ELM預測結(jié)果圖
對于測試用的40組數(shù)據(jù),事先并不知道它的摻假類別,為檢驗軟件的校正功能。以摻入大豆油的葡萄籽油的測試集10組數(shù)據(jù)進行驗證,這些樣本數(shù)據(jù)稱為“新樣本”。這10組“新樣本”由圖5可知,均判別成了“類別2”,將“類別2”對應的校驗集20組數(shù)據(jù)(來源于類別2的訓練集)與10組“新樣本”進行軟件中的第二步聚類驗證。為了防止一組“新樣本”與20組校驗集樣本在聚類過程中被覆蓋,采用過采樣技術將該組“新樣本”擴充至與校驗集一樣(20組)。結(jié)果每組聚類驗證都只產(chǎn)生一個聚類中心點,其中一組聚類中心決策圖如圖7所示。
圖7 “新樣本”與“類別2”聚類中心決策圖
說明“新樣本”與“類別2”為同一屬性的物質(zhì),因此最終確定該“新樣本”確實為摻入大豆油的葡萄籽油,軟件判定結(jié)果是一致的?!靶聵颖尽钡墓庾V以及其判別結(jié)果在光譜處理軟件中的顯示如圖8。
利益驅(qū)使下層出不窮的摻假手段使得新的、未出現(xiàn)在原訓練集中的摻假類別樣本不斷涌現(xiàn),因此往往有許多摻假是新(未知)的,并不在建模數(shù)據(jù)庫中,為了驗證算法的正確性,將摻入調(diào)和油的葡萄籽油的30組樣本作為“新樣本”進行驗證,其原始光譜圖如圖9所示。
圖8 判別結(jié)果顯示
圖9 摻入調(diào)和油的葡萄籽油原始光譜圖
同樣按2.1節(jié)的方法去噪和預處理后,進行第一步分類,ELM將30組“新樣本”均分類為“類別1”。進一步驗證ELM分類結(jié)果,和上述方法一樣,將“新樣本”與“類別1”對應的校驗集進行CFSFDP聚類得到聚類中心決策圖,每組驗證結(jié)果都產(chǎn)生了兩個聚類中心,其中一組決策圖如圖10所示。
圖10 “新樣本”與“類別1”聚類中心決策圖
說明“新樣本”與“類別1”不是同一屬性的物質(zhì),ELM模型分類結(jié)果是有誤,“新樣本”不屬于“類別1”,確定了30組“新樣本”都不屬于建模數(shù)據(jù)庫中的已知摻假類別,ELM由于算法的局限性,只能把新?lián)郊兕悇e分類到相似或相近的已知摻假類別(“類別1”)中,但此時樣本的聚類中心數(shù)為2,說明樣本不屬于該類別,最終定性判別摻入調(diào)和油的葡萄籽油為新?lián)郊兕悇e。
設計的可見/近紅外光譜儀硬件平臺結(jié)合人機交互界面的光譜處理軟件,能夠有效地采集并處理葡萄籽油光譜數(shù)據(jù)。該儀器采集的光譜數(shù)據(jù)會有部分毛刺和噪聲,但通過軟件中的小波閾值法去噪和MSC預處理后,結(jié)合光譜處理算法就能夠正確地鑒別葡萄籽油摻偽類別。特別是由ELM算法和CFSFDP聚類分析相結(jié)合的葡萄籽油摻偽鑒別算法,不需要知道待鑒別樣本是否在建模數(shù)據(jù)庫中,就能夠判別出葡萄籽油摻偽類別。實驗用搭建的可見/近紅外光譜采集平臺采集了5類葡萄籽油摻假光譜數(shù)據(jù)進行算法驗證,結(jié)果表明,研發(fā)的可見/近紅外光譜檢測系統(tǒng)的光譜處理軟件不僅對已知摻假類別的識別率為100%,而且可以定性判別出新?lián)郊兕悇e。綜上所述,研究設計檢測系統(tǒng)能夠快速有效地鑒別葡萄籽油摻假,與實驗室現(xiàn)有的通用傅里葉近紅外光譜儀相比,該可見/近紅外光譜檢測系統(tǒng)成本低、針對性強、方便攜帶,可為其他同類光譜儀開發(fā)和油品鑒別提供借鑒。在后續(xù)研究中,將拓展應用面,以實現(xiàn)儀器的通用性。