陳 卓 丁 利 曹天紅 程云輝 文 李 許 宙 陳茂龍 焦 葉 李虹輝
(長(zhǎng)沙理工大學(xué)食品與生物工程學(xué)院,湖南,長(zhǎng)沙 410114)
谷物是中國(guó)居民膳食的主要成分,第5次中國(guó)全面飲食研究(FCTDS)[1]表明,谷物、豆類及其制品占中國(guó)居民每日食物消費(fèi)總量的37.44%。其主要提供膳食纖維、糖、蛋白質(zhì)[2],并含有多種脂類[3]、維生素、植物甾醇、角鯊烯[4]。然而,谷物及其衍生食品中包含的重金屬、真菌毒素、農(nóng)藥和一些食品添加劑存在潛在危害[5]。低水平的重金屬暴露也會(huì)損害器官[6],其中鉛(Pb)、鎘(Cd)和砷(As)被認(rèn)為是谷物中常見的有毒重金屬[7]。鎘會(huì)對(duì)肺、骨、腎、肝、免疫系統(tǒng)和生殖器官等產(chǎn)生一系列損傷[8],砷會(huì)影響血管系統(tǒng)并導(dǎo)致高血壓和心血管疾病[9]。有研究[10]表明,25%的谷物受到了不同程度的真菌毒素污染。有關(guān)谷物中真菌毒素污染的監(jiān)管和研究主要集中于黃曲霉毒素、伏馬毒素玉米赤霉烯酮以及脫氧血腐鐮刀菌烯醇等方面[11],其中,黃曲霉毒素B1對(duì)哺乳動(dòng)物毒性最大,可造成中毒性肝炎、出血、水腫、免疫抑制和肝癌等損害[12]。目前,對(duì)谷物接觸不同污染物的風(fēng)險(xiǎn)評(píng)估研究已廣泛開展,涉及單一物質(zhì)或同源化合物,如真菌毒素[13-15]和重金屬[16-17]。谷物及其衍生食物通常被多類污染物污染,僅涉及單一或同類污染物的風(fēng)險(xiǎn)評(píng)估可能導(dǎo)致其對(duì)潛在健康風(fēng)險(xiǎn)的低估[18]。而目前有關(guān)谷物資源同時(shí)接觸多類污染物的健康風(fēng)險(xiǎn)評(píng)估尚未見報(bào)道。
目前,食品風(fēng)險(xiǎn)評(píng)估技術(shù)可分為定量評(píng)估法(灰色系統(tǒng)理論和故障分析法)、定性評(píng)估法(德爾菲法、蒙特卡洛法和決策樹法)以及綜合評(píng)估法(人工神經(jīng)網(wǎng)絡(luò)、粗糙學(xué)以及層次分析法)。定性分析方法主要用于從政策和理論分析中得出風(fēng)險(xiǎn)評(píng)估結(jié)論,然而,由于數(shù)據(jù)主要來自問卷調(diào)查,因此不能準(zhǔn)確地構(gòu)建預(yù)警模型,定量分析中德爾菲法在預(yù)測(cè)單個(gè)標(biāo)量指標(biāo)方面比較成功,但不能處理多指標(biāo)的復(fù)雜系統(tǒng)。綜合評(píng)估方法中層次分析法(AHP)適用于對(duì)多指標(biāo)的復(fù)雜問題進(jìn)行決策,而傳統(tǒng)的層次分析法依賴于研究者的經(jīng)驗(yàn)來構(gòu)建判斷矩陣,容易導(dǎo)致誤判[19]?;陟貦?quán)的層次分析法(EM-AHP)根據(jù)谷物檢測(cè)數(shù)據(jù)的內(nèi)在規(guī)律計(jì)算各評(píng)價(jià)指標(biāo)的權(quán)重,反映谷物資源的整體風(fēng)險(xiǎn)。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種有效的計(jì)算模型,被廣泛應(yīng)用于非線性函數(shù)近似[20]、模式識(shí)別[21]、復(fù)雜流程工業(yè)能量預(yù)測(cè)[22]、工業(yè)過程控制與風(fēng)險(xiǎn)管理[23],紅棗缺陷識(shí)別[24],白酒酒花分類[25],可以在系統(tǒng)確切結(jié)構(gòu)未知的條件下進(jìn)行建模,針對(duì)谷物檢測(cè)數(shù)據(jù)具有高維屬性、復(fù)雜性、離散性和非線性等特點(diǎn),但人工神經(jīng)網(wǎng)絡(luò)建立的谷物風(fēng)險(xiǎn)預(yù)警模型并不準(zhǔn)確。
研究擬采用基于熵權(quán)的層次分析法通過數(shù)據(jù)壓縮和數(shù)據(jù)過濾提取谷物檢測(cè)數(shù)據(jù)的特征信息,并結(jié)合人工神經(jīng)網(wǎng)絡(luò)構(gòu)建谷物安全風(fēng)險(xiǎn)預(yù)警模型;以鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)、
脫氧雪腐鐮刀菌烯酮(DON)為谷物質(zhì)量安全評(píng)價(jià)指標(biāo),并作為模型的輸入,選擇隨機(jī)森林回歸(LR)、支持向量機(jī)回歸(SVM)、BP神經(jīng)網(wǎng)絡(luò)回歸(BP)、K近鄰回歸(KNN)4種機(jī)器學(xué)習(xí)算法進(jìn)行模型的構(gòu)建和比較,其中由基于熵權(quán)的層次分析法結(jié)合隨機(jī)森林算法(RF)構(gòu)建的模型(AHP-RF)預(yù)測(cè)效果最好,其谷物風(fēng)險(xiǎn)預(yù)警模型如圖1 所示。利用AHP-RF模型對(duì)2019年8月的谷物檢測(cè)數(shù)據(jù)進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)分析,旨在為谷物資源的安全監(jiān)管提供有針對(duì)性的參考建議。
谷物資源中化學(xué)殘留的標(biāo)準(zhǔn)化可加強(qiáng)植物油質(zhì)量安全監(jiān)管,依據(jù)衛(wèi)生部(http://www.samr.gov.cn/)和市場(chǎng)監(jiān)督管理總局(http://www.samr.gov.cn/spcjs/)發(fā)布的國(guó)家食品安全標(biāo)準(zhǔn),同時(shí)結(jié)合市場(chǎng)監(jiān)督管理局的抽檢數(shù)據(jù),得出評(píng)價(jià)植物油質(zhì)量的8個(gè)指標(biāo)分別為鎘(Cd)、砷(As)、鉛(Pb)、鉻(Cr)、黃曲霉毒素(AFs)、伏馬毒素(FB)、玉米赤酶烯酮(ZEN)和脫氧雪腐鐮刀菌烯酮(DON),谷物中污染數(shù)據(jù)來源于小麥、大米、玉米、燕麥、大麥、高粱、黑麥和小米。其中重金屬污染數(shù)據(jù)來源于文獻(xiàn)[26-46],真菌毒素?cái)?shù)據(jù)來源于文獻(xiàn)[47-62]。
假設(shè)相關(guān)函數(shù)的j參數(shù)是cij(y)(i表示第i次采樣):
(1)
相關(guān)函數(shù)稱為標(biāo)準(zhǔn)相關(guān)函數(shù),其中yj(1),yj(2),yj(3),yj(4)是cij(y)的節(jié)點(diǎn),預(yù)處理后的信息矩陣為:
圖1 谷物資源風(fēng)險(xiǎn)評(píng)估模型Figure 1 Risk assessment model of grain resources
(2)
中心標(biāo)準(zhǔn)化
(3)
(4)
(5)
對(duì)于n對(duì)稱矩陣,特征值W=(ω1,ω2,…,ωi)可以通過乘積的均方根法(幾何平均法)得到:
(6)
用W融合樣本,得到谷物風(fēng)險(xiǎn)融合數(shù)據(jù):
(7)
首先,通過對(duì)樣本集進(jìn)行重采樣來生成相同數(shù)量的樣本。假設(shè)特征數(shù)為K,對(duì)N個(gè)樣本在K個(gè)特征中隨機(jī)選擇T個(gè)特征,通過建立決策樹得到最佳分割點(diǎn)。最后,使用多數(shù)投票機(jī)制進(jìn)行預(yù)測(cè)。隨機(jī)森林算法結(jié)構(gòu)如圖2所示。
支持向量機(jī)(SVM)是一種通用的前饋網(wǎng)絡(luò)類型,可應(yīng)用于分類(聚類)、回歸、字符識(shí)別和時(shí)間序列,SVM的訓(xùn)練算法創(chuàng)建了一個(gè)模型,該模型將新樣本分配給兩個(gè)類別之一,使其成為非概率二元線性分類器。SVM在回歸方法中的工作原理是找到符合統(tǒng)計(jì)學(xué)習(xí)理論的線性分離函數(shù),SVM具有良好的泛化能力,能夠解決小樣本問題。
圖2 隨機(jī)森林結(jié)構(gòu)原理圖Figure 2 Schematic diagram of random forest structure
BP神經(jīng)網(wǎng)絡(luò)是根據(jù)誤差反向傳播進(jìn)行訓(xùn)練的反饋神經(jīng)網(wǎng)絡(luò)?;舅枷胧翘荻认陆捣?,通過反向傳播不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的實(shí)際輸出和預(yù)期輸出之間的誤差平方和最小,主要過程是:對(duì)于n個(gè)輸入學(xué)習(xí)樣本:“X1,X2,…,Xn”,已知對(duì)應(yīng)的m個(gè)輸出樣本為“Y1,Y2,…,Ym”。網(wǎng)絡(luò)的實(shí)際輸出(Z1,Z2,…,Zn)和目標(biāo)向量(T1,T2,…,Tm)之間的誤差用于校正其權(quán)重,使得Zn盡可能接近預(yù)期的Tm。
K近鄰算法沒有顯式的學(xué)習(xí)過程或訓(xùn)練過程,是懶惰學(xué)習(xí),數(shù)據(jù)集事先已經(jīng)有了分類標(biāo)簽和數(shù)據(jù)特征值,通過測(cè)量不同特征值之間的距離來對(duì)數(shù)據(jù)進(jìn)行分類。
計(jì)算相鄰樣本的距離采用歐式距離或曼哈頓距離:
(8)
(9)
算法過程:
(1)計(jì)算測(cè)試數(shù)據(jù)與各訓(xùn)練數(shù)據(jù)之間的距離。
(2)按距離的遞增關(guān)系排序。
(3)選取距離最小的K個(gè)點(diǎn)。
(4)確定前K個(gè)點(diǎn)所在類別的出現(xiàn)頻率。
(5)返回前K個(gè)點(diǎn)中出現(xiàn)頻率最高的類別作為測(cè)試數(shù)據(jù)的預(yù)測(cè)分類。
為確定8種危險(xiǎn)因素(Cd、As、Pb、Cr、AFB、FB、ZEN、DON)的離散程度,判斷8種危害指標(biāo)對(duì)綜合評(píng)價(jià)的影響,將預(yù)處理后的檢驗(yàn)數(shù)據(jù)作為風(fēng)險(xiǎn)評(píng)估模型的輸入,利用基于熵權(quán)的層次分析法對(duì)檢驗(yàn)數(shù)據(jù)中的8個(gè)風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)進(jìn)行風(fēng)險(xiǎn)融合。部分AHP融合結(jié)果見表1,基于熵權(quán)的層次分析法融合的各風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)的權(quán)重比例如圖3所示,各指標(biāo)權(quán)重相差不大說明數(shù)據(jù)離散程度適合建模。
表1 部分AHP風(fēng)險(xiǎn)融合結(jié)果Table 1 Results of partial AHP risk fusion
圖3 谷物資源中各危險(xiǎn)因素的權(quán)重Figure 3 Weight of risk factors in grain resources
用min-max歸一化法對(duì)檢驗(yàn)數(shù)據(jù)進(jìn)行線性變換。每個(gè)指標(biāo)數(shù)據(jù)映射到區(qū)間[0,1]。min-max歸一化公式如下:
(10)
式中:
i=1,2,…,1;
j=1,2,…,m。
標(biāo)準(zhǔn)化后確定谷物資源化學(xué)危害等級(jí)范圍[0.05,0.92],采用五等分法[63]將化學(xué)危害等級(jí)范圍劃分為5個(gè)風(fēng)險(xiǎn)評(píng)價(jià)等級(jí)(見表2)。
表2 谷物資源化學(xué)危害等級(jí)Table 2 Chemical hazard grade of grain resources
將風(fēng)險(xiǎn)融合的結(jié)果作為預(yù)警模型的預(yù)期輸出。構(gòu)建8輸入單輸出訓(xùn)練樣本數(shù)據(jù),預(yù)處理檢驗(yàn)數(shù)據(jù)總量1 067。從數(shù)據(jù)中選擇75%的樣本作為訓(xùn)練樣本數(shù)據(jù),其余的作為測(cè)試樣本數(shù)據(jù)。
為了驗(yàn)證該模型的有效性,采用隨機(jī)森林(RF)、BP神經(jīng)網(wǎng)絡(luò)(BP)、K近鄰回歸(KNN)和支持向量機(jī)(SVM)回歸對(duì)數(shù)據(jù)進(jìn)行建模。
在隨機(jī)森林(RF)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,決策樹個(gè)數(shù)為100,分裂1個(gè)內(nèi)部節(jié)點(diǎn)需要的最少樣本為2,每個(gè)葉子節(jié)點(diǎn)需要的最少樣本數(shù)為2。
在單層BP神經(jīng)網(wǎng)絡(luò)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,迭代次數(shù)為200,激勵(lì)函數(shù)為rule函數(shù),求解器為adam,輸入層、隱藏層和輸出層的節(jié)點(diǎn)數(shù)分別為8,20,1。
在K近鄰回歸(KNN)中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,所選用的近鄰數(shù)為5,預(yù)測(cè)權(quán)函數(shù)為uniform,葉大小為30,向量距離算法為歐式距離。
在支持向量機(jī)(SVM)回歸中,采用min-max標(biāo)準(zhǔn)化進(jìn)行定量數(shù)據(jù)標(biāo)準(zhǔn)化,核函數(shù)為bf(徑向基核),殘差收斂條件為0.000 1,使用收縮啟發(fā)式。
由圖4可知,RF的泛化結(jié)果比BP、KNN和SVM的更接近實(shí)際值。
圖4 4種機(jī)器學(xué)習(xí)算法的預(yù)測(cè)風(fēng)險(xiǎn)值與實(shí)際風(fēng)險(xiǎn)值的擬合結(jié)果Figure 4 Fitting results of four machine learning algorithms to predict risk value and actual risk value
由RF、BP、KNN和SVM分別結(jié)合基于熵權(quán)的層次分析法對(duì)數(shù)據(jù)進(jìn)行建模,由表3可知,4個(gè)模型的線性回歸決定系數(shù)分別0.999 8,0.928 6,0.900 8,0.963 1,說明RF算法的效果優(yōu)于其他3種算法。
由圖5可知,基于熵權(quán)的層次分析法組合隨機(jī)森林回歸方法的擬合度優(yōu)于其他3種方法,可用于谷物化學(xué)危害要素危害程度的預(yù)測(cè)。
采用AHP-RF模型對(duì)2019年8月20個(gè)樣本的檢驗(yàn)數(shù)據(jù)進(jìn)行評(píng)估,預(yù)測(cè)結(jié)果如圖6所示。
表3 4種回歸算法的穩(wěn)定性比較Table 3 Comparison of stability of four regression algorithms
由圖6可知,AHP-RF風(fēng)險(xiǎn)評(píng)估模型可以準(zhǔn)確預(yù)測(cè)2019年8月初的食品安全風(fēng)險(xiǎn)。2019年8月前20 d的風(fēng)險(xiǎn)平均值為0.630,屬于[0.448,0.662],整體風(fēng)險(xiǎn)處于中等風(fēng)險(xiǎn)范圍。2019年8月前10 d的風(fēng)險(xiǎn)分析表明,平均風(fēng)險(xiǎn)值為0.675,而8月后10 d的平均風(fēng)險(xiǎn)值為0.586,因此2019年8月前10 d的整體風(fēng)險(xiǎn)較大。2019年8月高于高風(fēng)險(xiǎn)預(yù)警參考值0.792的數(shù)據(jù)共有7個(gè),占總數(shù)據(jù)的35%。而3—7月數(shù)據(jù)中風(fēng)險(xiǎn)值高于高風(fēng)險(xiǎn)預(yù)警參考值的數(shù)據(jù)僅占數(shù)據(jù)總量的9.6%,因此8月高風(fēng)險(xiǎn)數(shù)據(jù)占比明顯上升,整體風(fēng)險(xiǎn)趨勢(shì)明顯上升。因此,相關(guān)部門需重點(diǎn)關(guān)注這一時(shí)期的糧食生產(chǎn)。8月初檢驗(yàn)樣本的風(fēng)險(xiǎn)明顯增加,相關(guān)部門應(yīng)更重視2019年8月初的檢驗(yàn)樣本,并采取如加強(qiáng)監(jiān)管,督促相關(guān)企業(yè)生產(chǎn)高質(zhì)量、低風(fēng)險(xiǎn)的產(chǎn)品等相關(guān)措施,以控制風(fēng)險(xiǎn)的持續(xù)增長(zhǎng),避免食品安全事故的發(fā)生。
圖5 4種機(jī)器學(xué)習(xí)算法的線性回歸分析Figure 5 Linear regression analysis of four machine learning algorithms
圖6 AHP-RF風(fēng)險(xiǎn)評(píng)估模型的預(yù)測(cè)風(fēng)險(xiǎn)值與實(shí)際風(fēng)險(xiǎn)值Figure 6 Comparison between the predicted risk value and the actual risk value of AHP-RF risk assessment model in August 2019
提出了一種AHP-RF方法,建立以谷物資源檢測(cè)數(shù)據(jù)作為輸入,采用基于熵權(quán)的層次分析法提取數(shù)據(jù)的特征變量作為隨機(jī)森林算法輸出的谷物資源風(fēng)險(xiǎn)預(yù)警模型。結(jié)果表明,該模型獨(dú)立檢驗(yàn)集的R2>0.99,表明其能夠較好地實(shí)現(xiàn)谷物資源的風(fēng)險(xiǎn)評(píng)估。將AHP-RF方法應(yīng)用于2019年8月的谷物資源風(fēng)險(xiǎn)分析,發(fā)現(xiàn)2019年8月的谷物資源風(fēng)險(xiǎn)增加,存在安全隱患問題。食品檢驗(yàn)部門可以利用此結(jié)果提高食品安全預(yù)警的效率。為了進(jìn)一步研究,將研究卷積神經(jīng)網(wǎng)絡(luò)(CNN)來優(yōu)化數(shù)據(jù)預(yù)處理過程,CNN具有較強(qiáng)的非線性擬合能力和特征提取能力,應(yīng)用于谷物資源預(yù)警分析可能會(huì)揭示更多的未知規(guī)律。但CNN模型復(fù)雜度高、成本高、對(duì)數(shù)據(jù)質(zhì)量要求高,為此需要收集更多數(shù)據(jù),建立質(zhì)量更完善的谷物安全風(fēng)險(xiǎn)指標(biāo)數(shù)據(jù)集,并將數(shù)據(jù)集與CNN結(jié)合建立模型,將有助于建立準(zhǔn)確、智能的食品風(fēng)險(xiǎn)預(yù)警系統(tǒng)。