唐云峰,柴琴琴*,林雙杰,黃 捷,李玉榕,王 武
1. 福州大學(xué)電氣工程與自動化學(xué)院,福建 福州 350108 2. 福建省醫(yī)療器械和醫(yī)藥技術(shù)重點(diǎn)實(shí)驗(yàn)室,福建 福州 350108
葡萄籽油是一種重要的食用、保健資源,長期食用葡萄籽油具有抗衰老、增強(qiáng)免疫力、促進(jìn)生長發(fā)育、消除血清膽固醇等作用[1]。具有的營養(yǎng)價(jià)值和醫(yī)藥價(jià)值使其成為一種高級保健食用油。由于葡萄籽油的市場價(jià)格普遍高于大宗食用油,受利益驅(qū)動的不法分子將廉價(jià)食用油摻入葡萄籽油[2]。傳統(tǒng)方法進(jìn)行品質(zhì)檢測時(shí),從采樣到測量整個(gè)過程,工作量較大,例如采樣過程需要包裝、記錄、運(yùn)輸,測量前還需破壞性預(yù)處理等,這樣的分析過程效率低、周期長,有時(shí)還會因化學(xué)試劑的使用引起環(huán)境污染[3]。為了保護(hù)消費(fèi)者的合法權(quán)益和身體健康,規(guī)范食用油市場,現(xiàn)場快速鑒別摻偽的葡萄籽油具有現(xiàn)實(shí)意義。
近紅外光譜(near infrared spectroscopy, NIR)通過檢測含氫基團(tuán)(—CH, —OH, —NH, —SH)的振動組合頻與倍頻的吸收來實(shí)現(xiàn)對目標(biāo)物的鑒定,是一種高性能的、快速、綠色、高靈敏度的食品無損檢測方法,近年來已經(jīng)被廣泛地應(yīng)用在食品安全的檢測中[4-7]。目前,我國近紅外光譜儀主要依賴進(jìn)口,進(jìn)口產(chǎn)品高昂的價(jià)格和脫節(jié)的售后技術(shù)服務(wù)阻礙了該技術(shù)在我國的普及,嚴(yán)重影響了我國應(yīng)用技術(shù)水平的進(jìn)步[3],實(shí)驗(yàn)室通用的傅里葉近紅外光譜儀價(jià)格昂貴、操作環(huán)境要求高,并不適合現(xiàn)場檢測操作,研究一款低成本、準(zhǔn)確度高的光譜檢測系統(tǒng)具有重大的實(shí)用價(jià)值,因此本文依托USB6500-Pro探測器搭建一個(gè)可見/近紅外光譜檢測平臺,可用于檢測葡萄籽油及摻入其他油類的葡萄籽油光譜數(shù)據(jù)。由于探測器廠家自帶的軟件僅作為光譜采集、操作復(fù)雜和無法顯示分類判別結(jié)果,本文基于Qt自行設(shè)計(jì)一套簡便、有效的人機(jī)交互界面的在線光譜檢測軟件,用以實(shí)現(xiàn)對光譜數(shù)據(jù)的采集、處理以及葡萄籽油摻假鑒別結(jié)果的顯示。
在高精度建模方法方面,極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)算法訓(xùn)練速度快、計(jì)算量小、具有優(yōu)異的泛化性能等,近年來廣泛應(yīng)用到近紅外光譜的分析中[8-9]。王瑋等[8]提出酵母菌生長過程4個(gè)階段的CARS-ELM分類模型,其10次運(yùn)行在訓(xùn)練集和測試集中的平均識別率分別為98.68%和97.37%; 郭文川等[9]采用近紅外漫反射光譜,提出的UVE-SPA-ELM模型對采后貯藏10天內(nèi)預(yù)測集中損傷獼猴桃和無損獼猴桃的總正確識別率為92.4%。但是ELM預(yù)測效果取決于訓(xùn)練集對模型訓(xùn)練的好壞,只能預(yù)測訓(xùn)練集中的已知的類別,上述應(yīng)用都缺乏對新類別樣本的分類。而現(xiàn)實(shí)生活中,受利益驅(qū)使下層出不窮的摻假手段使得新的、未出現(xiàn)在原訓(xùn)練集樣本中的摻假類別不斷涌現(xiàn),因此亟需一種能夠鑒別新?lián)郊兕悇e的方法。針對這個(gè)問題,以ELM算法與自動聚類算法為核心,本研究小組研制出一種快速真?zhèn)闻袆e檢測系統(tǒng),不僅實(shí)現(xiàn)已知摻假類別的判別,而且對新?lián)郊兕悇e也能定性分析,具有便攜、操作簡便、擴(kuò)展性好、時(shí)間短等特點(diǎn),符合現(xiàn)場檢測的要求。
實(shí)驗(yàn)用葵花籽油、玉米油、大豆油、調(diào)和油和葡萄籽油,購買于本地的永輝超市。以葡萄籽油為溶劑,每次摻入單種一定量的其他食用油(大豆油、葵花籽油、玉米油和調(diào)和油)制備總體積均為200 mL摻雜葡萄籽油樣品,其中每次摻入的某種油品的體積(mL)分別為5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,110,120,130,140,150,160,170,180,190和200,充分振蕩搖勻,每組各有30個(gè)樣品,得到30個(gè)純葡萄籽油樣品和120個(gè)葡萄籽油摻假樣品。
研發(fā)的檢測系統(tǒng)的硬件平臺主要包含: 光源、樣品池、光纖、探測器和計(jì)算機(jī)。光源采用進(jìn)口鹵鎢燈光源HL-2000,光纖為600 μm優(yōu)質(zhì)石英光纖,探測器的型號是USB6500-Pro,具體參數(shù)見表1。
表1 USB6500-Pro探測器參數(shù)
整個(gè)搭建好的硬件檢測平臺如圖1所示。光譜采集過程如下: 首先將葡萄籽油樣品裝入比色皿,然后給儀器光源和USB6500-Pro光譜儀上電,并進(jìn)行2分鐘的預(yù)熱處理以保證光源的光強(qiáng)輸出穩(wěn)定和光譜儀穩(wěn)定工作,光源通過光纖將光照射進(jìn)比色皿中,光線透過葡萄籽油樣品后通過光纖傳遞給探測器,最后探測器將采集到的光譜吸收率通過USB數(shù)據(jù)線傳送給計(jì)算機(jī),然后用設(shè)計(jì)的光譜軟件進(jìn)行采集。
圖1 檢測系統(tǒng)硬件平臺
為了實(shí)現(xiàn)對光譜數(shù)據(jù)的采集,基于Qt開發(fā)環(huán)境設(shè)計(jì)了一套具有簡便的人機(jī)交互界面在線光譜檢測軟件,軟件功能有: 光譜數(shù)據(jù)的采集、保存、數(shù)據(jù)處理及結(jié)果顯示,如圖2所示。該軟件有光譜數(shù)據(jù)采集區(qū),能有效采集USB6500-Pro光譜儀產(chǎn)生的光譜數(shù)據(jù),并對采集到的數(shù)據(jù)進(jìn)行顯示和保存; 此外還有光譜數(shù)據(jù)處理區(qū),其中數(shù)據(jù)預(yù)處理則根據(jù)需要可以選擇合適的預(yù)處理方法,本文采用MSC處理方法,模型在線分析則將采集的光譜數(shù)據(jù)通過程序中的光譜鑒別設(shè)計(jì)算法判別出來,最后在軟件界面顯示光譜分類判別結(jié)果。
光譜鑒別方法是光譜處理軟件設(shè)計(jì)的關(guān)鍵部分。自動聚類算法采用快速搜索密度峰聚類算法[10](clustering by fast search and find of density peaks, CFSFDP),CFSFDP算法能夠自動確定聚類中心個(gè)數(shù),根據(jù)聚類中心個(gè)數(shù)就可以知道類別個(gè)數(shù)。因此在軟件設(shè)計(jì)部分主要采用ELM結(jié)合CFSFDP算法,簡稱ELM-CFSFDP算法,對ELM的預(yù)測結(jié)果用CFSFDP算法進(jìn)行聚類驗(yàn)證,鑒別方法設(shè)計(jì)如圖3所示,分為兩步:
第一步分類(ELM): 在建模數(shù)據(jù)庫中,利用訓(xùn)練集樣本中的已知摻假類別(類別1—類別n)對ELM模型進(jìn)行訓(xùn)練,將待鑒別樣本x輸入到訓(xùn)練好的ELM中,預(yù)測結(jié)果為類別m(m=1, 2, …,n)。但是當(dāng)樣本x不屬于建模數(shù)據(jù)庫的已知摻假類別而是新?lián)郊兕悇e時(shí),ELM的分類結(jié)果為類別1—n中的近似或相似類別,就會出現(xiàn)誤判。而在現(xiàn)實(shí)生活中檢驗(yàn)葡萄籽油摻假時(shí),事先并不知道待鑒別樣本是否屬于建模數(shù)據(jù)庫中,因此需要對分類結(jié)果進(jìn)行校驗(yàn)。
第二步基于聚類(CFSFDP)的結(jié)果校驗(yàn): 假設(shè)第一步ELM的分類結(jié)果為類別m,校驗(yàn)集樣本中的有相同的類別m與之對應(yīng),然后將校驗(yàn)集中類別m的樣本與待鑒別樣本x進(jìn)行CFSFDP算法聚類,當(dāng)產(chǎn)生一個(gè)聚類中心時(shí),則待鑒別樣本x屬于類別1—n,為已知摻假類別,而聚類中心為兩個(gè)時(shí),則待鑒別樣本x不屬于類別1—n,為新?lián)郊兕悇e。
圖2 檢測系統(tǒng)光譜軟件設(shè)計(jì)
圖3 光譜鑒別方法設(shè)計(jì)
1.5.1 極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)算法是2006年由Huang等[11]提出的一種新型單隱層前饋神經(jīng)網(wǎng)絡(luò),設(shè)任意對于給定的N個(gè)不同的樣本{xi,ti|i=1, 2, …,N},其中xi=[xi1,xi2, …,xin]T∈Rn和ti=ti1,ti2, …,tim∈Rm,n和m分別表示其維度,wk為輸入節(jié)點(diǎn)與第k個(gè)隱含層節(jié)點(diǎn)的權(quán)值,bk為第k個(gè)隱含層節(jié)點(diǎn)的輸出偏置。單隱含層前饋網(wǎng)絡(luò)的輸入輸出的數(shù)學(xué)模型的表示為
(1)
式中,L為隱含層的個(gè)數(shù),G(·)為非線性連續(xù)激活函數(shù),βk=[βk1,βk2, …,βkm]T為連接第k個(gè)隱含層節(jié)點(diǎn)與輸出層的輸出權(quán)值向量,上述方程可以簡寫成如下形式
Hβ=T
(2)
式中,H為隱含層輸出矩陣,wk和bk在模型的訓(xùn)練中是隨機(jī)取值的,因此,方程(2)的最小范數(shù)最小二乘解β為
(3)
式中,H+為隱含層輸出矩陣H的Moore-Penrose廣義逆。
1.5.2 聚類算法
Alex Rodriguez于2014年在Science上提出了一種聚類的新思路[10],簡稱為CFSFDP算法,該算法實(shí)現(xiàn)聚類中心自動確定是基于以下兩個(gè)假設(shè): (1)聚類中心點(diǎn)具有較大的局部密度高于附近鄰居點(diǎn)密度值,聚類中心點(diǎn)被具有較低局部密度的鄰居點(diǎn)包圍,并且不同的聚類中心點(diǎn)有較大的距離; (2) 噪聲點(diǎn)具有較大的距離和相應(yīng)較小的局部密度。
設(shè)聚類的數(shù)據(jù)集合J={xi|i=1, 2, …,N},對于要處理的數(shù)據(jù)xi∈Rq,q表示數(shù)據(jù)點(diǎn)的維度,每個(gè)數(shù)據(jù)點(diǎn)都需要計(jì)算相應(yīng)的局部密度和最小距離
(4)
其中,dij表示不同兩個(gè)數(shù)據(jù)點(diǎn)xi與xj間的距離值,這里取歐氏距離值; 參數(shù)dc>0為截?cái)嗑嚯x,為一個(gè)超參數(shù),根據(jù)文獻(xiàn)[10]描述采用可以使得每個(gè)數(shù)據(jù)點(diǎn)平均鄰居點(diǎn)數(shù)約占整個(gè)數(shù)據(jù)點(diǎn)總數(shù)的1%~2%。對于任意的數(shù)據(jù)xi,到具有更高局部密度的其他數(shù)據(jù)對象的最小距離δi的公式計(jì)算如式(5)
(5)
CFSFDP算法基于兩個(gè)假設(shè),從而得出聚類中心點(diǎn)相比于非聚類中心點(diǎn)具有較高的局部密度ρ和最小距離δ值,通過計(jì)算求得每個(gè)數(shù)據(jù)點(diǎn)的ρ和δ值,以ρ和δ橫縱坐標(biāo)的決策圖便能夠定性識別聚類中心數(shù),相比較于其他傳統(tǒng)的聚類算法,它能根據(jù)聚類中心自動聚類,因此也叫自動聚類算法。
用自己搭建的可見/近紅外光譜硬件平臺采集了純葡萄籽油和摻入不同比例的大豆油、玉米油、葵花籽油和調(diào)和油的葡萄籽油的共計(jì)5類油樣品的光譜前4類作為建模數(shù)據(jù)庫中的已知摻假類別,而第5類摻入調(diào)和油的葡萄籽油為新?lián)郊兕悇e。K-S算法是一種基于樣本光譜間歐氏距離的定標(biāo)集劃分方法,通過K-S算法將已知摻假類別的每類樣本劃分成訓(xùn)練集20組和測試集10組,同時(shí)將已知類別打上類別標(biāo)簽1~4,新?lián)郊兕悇e全部作為測試集,訓(xùn)練集用來實(shí)現(xiàn)軟件中的鑒別算法,測試集的數(shù)據(jù)用來測試光譜處理軟件的分類效果。最后得到樣本分配情況如表2所示。
表2 樣本分配表
采集的純葡萄籽油和摻入不同比例大豆油、玉米油、葵花籽油的樣品的可見/近紅外原始光譜如圖3所示。從圖可以看出,由于測量過程中存在雜散光、儀器不穩(wěn)定等因素,光譜存在大量的毛刺和噪聲,需要去噪處理。
圖4 原始可見/近紅外光譜圖
小波閾值去噪已廣泛應(yīng)用于在光譜去噪中[12-13],小波變換去噪時(shí),參數(shù)的不當(dāng)設(shè)定可能誤將光譜部分特征信息當(dāng)作噪音從光譜數(shù)據(jù)中剔除,進(jìn)而影響模型精度。采用信噪比(SNR)與均方根誤差(RMSE)作為小波閾值法對光譜數(shù)據(jù)去噪的評價(jià)指標(biāo)。在一定精度范圍要求下,SNR越大、RMSE越小,表明光譜數(shù)據(jù)中含有的噪聲被剔除的越多,特征信息保留的越充分[13]。
(6)
(7)
由于dbN系具有較好的正交緊支性[14],實(shí)驗(yàn)用摻假75 mL其他油類的葡萄油和一組純葡萄籽油共計(jì)四組數(shù)據(jù),綜合考慮去噪后的光譜平滑度,最后小波基函數(shù)選擇db5小波、分解層數(shù)5層,閾值方案選為“rigrsure”,計(jì)算SNR和RMSE,如表3所示。
表3 去噪后的SNR和RMSE
表中可以看出,小波變換去噪后,有較高的SNR和較低的RMSE[13],符合后續(xù)分類要求。將其應(yīng)用于所有的可見/近紅外光譜數(shù)據(jù),得到去噪后的光譜如圖5所示。
圖5 去噪后的可見/近紅外光譜圖
為了提高數(shù)學(xué)預(yù)測模型的穩(wěn)定性和魯棒性,分類器輸入一般都需要進(jìn)行預(yù)處理,MSC算法能有效的消除散射的影響,修正基線平移和偏移影響,增強(qiáng)了與成分含量最相關(guān)光譜的吸收度信息,因此選擇MSC作為數(shù)據(jù)預(yù)處理。
去噪和預(yù)處理后的光譜數(shù)據(jù),按照表2,前4類(純葡萄籽油和摻入不同比例的大豆油、玉米油、葵花籽油)作為已知摻假類別,其中訓(xùn)練集共80組數(shù)據(jù)用來實(shí)現(xiàn)鑒別算法,40組用來測試系統(tǒng)效果。測試結(jié)果如圖6所示,可以看出,利用開發(fā)的光譜處理軟件可達(dá)到100%的識別率,證明軟件是可用的。
圖6 ELM預(yù)測結(jié)果圖
對于測試用的40組數(shù)據(jù),事先并不知道它的摻假類別,為檢驗(yàn)軟件的校正功能。以摻入大豆油的葡萄籽油的測試集10組數(shù)據(jù)進(jìn)行驗(yàn)證,這些樣本數(shù)據(jù)稱為“新樣本”。這10組“新樣本”由圖5可知,均判別成了“類別2”,將“類別2”對應(yīng)的校驗(yàn)集20組數(shù)據(jù)(來源于類別2的訓(xùn)練集)與10組“新樣本”進(jìn)行軟件中的第二步聚類驗(yàn)證。為了防止一組“新樣本”與20組校驗(yàn)集樣本在聚類過程中被覆蓋,采用過采樣技術(shù)將該組“新樣本”擴(kuò)充至與校驗(yàn)集一樣(20組)。結(jié)果每組聚類驗(yàn)證都只產(chǎn)生一個(gè)聚類中心點(diǎn),其中一組聚類中心決策圖如圖7所示。
圖7 “新樣本”與“類別2”聚類中心決策圖
說明“新樣本”與“類別2”為同一屬性的物質(zhì),因此最終確定該“新樣本”確實(shí)為摻入大豆油的葡萄籽油,軟件判定結(jié)果是一致的?!靶聵颖尽钡墓庾V以及其判別結(jié)果在光譜處理軟件中的顯示如圖8。
利益驅(qū)使下層出不窮的摻假手段使得新的、未出現(xiàn)在原訓(xùn)練集中的摻假類別樣本不斷涌現(xiàn),因此往往有許多摻假是新(未知)的,并不在建模數(shù)據(jù)庫中,為了驗(yàn)證算法的正確性,將摻入調(diào)和油的葡萄籽油的30組樣本作為“新樣本”進(jìn)行驗(yàn)證,其原始光譜圖如圖9所示。
圖8 判別結(jié)果顯示
圖9 摻入調(diào)和油的葡萄籽油原始光譜圖
同樣按2.1節(jié)的方法去噪和預(yù)處理后,進(jìn)行第一步分類,ELM將30組“新樣本”均分類為“類別1”。進(jìn)一步驗(yàn)證ELM分類結(jié)果,和上述方法一樣,將“新樣本”與“類別1”對應(yīng)的校驗(yàn)集進(jìn)行CFSFDP聚類得到聚類中心決策圖,每組驗(yàn)證結(jié)果都產(chǎn)生了兩個(gè)聚類中心,其中一組決策圖如圖10所示。
圖10 “新樣本”與“類別1”聚類中心決策圖
說明“新樣本”與“類別1”不是同一屬性的物質(zhì),ELM模型分類結(jié)果是有誤,“新樣本”不屬于“類別1”,確定了30組“新樣本”都不屬于建模數(shù)據(jù)庫中的已知摻假類別,ELM由于算法的局限性,只能把新?lián)郊兕悇e分類到相似或相近的已知摻假類別(“類別1”)中,但此時(shí)樣本的聚類中心數(shù)為2,說明樣本不屬于該類別,最終定性判別摻入調(diào)和油的葡萄籽油為新?lián)郊兕悇e。
設(shè)計(jì)的可見/近紅外光譜儀硬件平臺結(jié)合人機(jī)交互界面的光譜處理軟件,能夠有效地采集并處理葡萄籽油光譜數(shù)據(jù)。該儀器采集的光譜數(shù)據(jù)會有部分毛刺和噪聲,但通過軟件中的小波閾值法去噪和MSC預(yù)處理后,結(jié)合光譜處理算法就能夠正確地鑒別葡萄籽油摻偽類別。特別是由ELM算法和CFSFDP聚類分析相結(jié)合的葡萄籽油摻偽鑒別算法,不需要知道待鑒別樣本是否在建模數(shù)據(jù)庫中,就能夠判別出葡萄籽油摻偽類別。實(shí)驗(yàn)用搭建的可見/近紅外光譜采集平臺采集了5類葡萄籽油摻假光譜數(shù)據(jù)進(jìn)行算法驗(yàn)證,結(jié)果表明,研發(fā)的可見/近紅外光譜檢測系統(tǒng)的光譜處理軟件不僅對已知摻假類別的識別率為100%,而且可以定性判別出新?lián)郊兕悇e。綜上所述,研究設(shè)計(jì)檢測系統(tǒng)能夠快速有效地鑒別葡萄籽油摻假,與實(shí)驗(yàn)室現(xiàn)有的通用傅里葉近紅外光譜儀相比,該可見/近紅外光譜檢測系統(tǒng)成本低、針對性強(qiáng)、方便攜帶,可為其他同類光譜儀開發(fā)和油品鑒別提供借鑒。在后續(xù)研究中,將拓展應(yīng)用面,以實(shí)現(xiàn)儀器的通用性。