浙江財(cái)經(jīng)大學(xué)(杭州 310018)
各行的數(shù)據(jù)規(guī)模和種類近年來隨著信息產(chǎn)業(yè)的發(fā)展呈指數(shù)級(jí)增長(zhǎng),開啟了我國(guó)大數(shù)據(jù)時(shí)代。通過數(shù)據(jù)挖掘可以提高數(shù)據(jù)庫中的數(shù)據(jù)價(jià)值[1]。與此同時(shí),我國(guó)頻繁發(fā)生食品安全事件,如有毒大米事件、“瘦肉精”中毒事件、劣質(zhì)奶粉事件以及“蘇丹紅”事件等,對(duì)消費(fèi)者的身體健康造成了極大的威脅,同時(shí)在社會(huì)中引起了負(fù)面效應(yīng)。因此需要對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè),通過食品安全風(fēng)險(xiǎn)監(jiān)管可以提高食品安全水平[2-4]。當(dāng)食品安全存在危機(jī)和風(fēng)險(xiǎn)時(shí),食品安全監(jiān)管部門需要采取相關(guān)措施,對(duì)食品的危害程度和危害成分進(jìn)行辨別,并以預(yù)警的形式公告給顧客,提醒顧客禁止使用或慎食,最小化危害和風(fēng)險(xiǎn)。當(dāng)前食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法存在實(shí)時(shí)性差和監(jiān)測(cè)準(zhǔn)確率低的問題,需要對(duì)食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行研究。
張明等[5]提出基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法,該方法在Rosetta粗糙集理論的基礎(chǔ)上簡(jiǎn)約指標(biāo),獲取指標(biāo)屬性對(duì)應(yīng)的重要性,分類并整理數(shù)據(jù),構(gòu)建指數(shù)分級(jí)標(biāo)準(zhǔn),生成決策表,實(shí)現(xiàn)食品安全風(fēng)險(xiǎn)的監(jiān)測(cè),該方法獲取指標(biāo)屬性重要性所用的時(shí)間較長(zhǎng),存在實(shí)時(shí)性差的問題。梁輝等[6]提出基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法,該方法將采樣地點(diǎn)數(shù)據(jù)通過GIS地理編碼技術(shù)轉(zhuǎn)變?yōu)榻?jīng)緯度坐標(biāo),并在電子地圖數(shù)據(jù)庫中利用經(jīng)緯度坐標(biāo)制作采樣地點(diǎn)專題圖,通過空間隨機(jī)模式下的平均最鄰近距離與采樣地點(diǎn)平均最鄰近距離的期望比值判斷空間分布特征,來實(shí)現(xiàn)食品安全風(fēng)險(xiǎn)的監(jiān)測(cè)。該方法存在監(jiān)測(cè)準(zhǔn)確率低的問題,得到的監(jiān)測(cè)結(jié)果與實(shí)際不符。
為了解決上述方法中存在的問題,提出基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型。
基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型通過數(shù)據(jù)挖掘技術(shù)對(duì)食品數(shù)據(jù)進(jìn)行降維處理:
對(duì)m個(gè)變量ξ1,ξ2,…,ξm進(jìn)行n次觀測(cè),構(gòu)建觀測(cè)數(shù)據(jù)矩陣X,其表達(dá)式如下:
設(shè)sj代表樣本標(biāo)準(zhǔn)差,
設(shè)R代表樣本相關(guān)矩陣,其中通過下式對(duì)R=UUΛUT進(jìn)行特征分解。
1) 對(duì)R的特征向量和特征值進(jìn)行計(jì)算。設(shè)λ1≥λ2≥…≥λm≥0代表樣本相關(guān)矩陣R的m個(gè)特征值,對(duì)各個(gè)主成分對(duì)應(yīng)的貢獻(xiàn)率進(jìn)行計(jì)算[7],主成分分析結(jié)果為符合λp+1<1的前p個(gè)主成分:
2) 對(duì)特征值按照從大到小的順序?qū)M(jìn)行排序λ1,λ2,…,λm[8-10],并對(duì)特征值所對(duì)應(yīng)的特征向量eig1,eig2,…,eigm進(jìn)行計(jì)算,各個(gè)特征向量在此時(shí)為兩兩正交,是單位向量。
3) 構(gòu)建主成分載荷陣。設(shè)Um×p代表的是主成分載荷陣,通過前p個(gè)特征向量構(gòu)成,其表達(dá)式為
通過上述過程獲得原變量ζ1,ζ2,…,ζm,通過式(5)用主成分變量η1,η2,…,ηp代替原變量。
經(jīng)過變換后獲得新樣本數(shù)據(jù)對(duì)應(yīng)的特征維數(shù)明顯小于原始數(shù)據(jù)對(duì)應(yīng)的特征維數(shù),其降低了樣本的數(shù)據(jù)量,實(shí)現(xiàn)了數(shù)據(jù)降維。
風(fēng)險(xiǎn)是風(fēng)險(xiǎn)因素的損失度與發(fā)生的可能性的二元函數(shù),可通過公式進(jìn)行描述:R=f(P,S)。式中,R表示食品風(fēng)險(xiǎn)分析值;S表示風(fēng)險(xiǎn)因素產(chǎn)生的損失度;P表示發(fā)生風(fēng)險(xiǎn)因素的可能性[11]。
在式(12)的基礎(chǔ)上分析危害指標(biāo),對(duì)危害指標(biāo)的損失度大小和風(fēng)險(xiǎn)可能性進(jìn)行度量,并在風(fēng)險(xiǎn)計(jì)算公式中引入損失度數(shù)值和可能性數(shù)值。
2.1.1 風(fēng)險(xiǎn)可能性
2.1.2 風(fēng)險(xiǎn)損失度
通常由風(fēng)險(xiǎn)因素造成的危害程度與其污染程度決定風(fēng)險(xiǎn)損失度,社會(huì)影響因子會(huì)對(duì)風(fēng)險(xiǎn)損失度產(chǎn)生影響。設(shè)代表第n種食品的第i個(gè)危害指標(biāo)在第m類食品中對(duì)應(yīng)的風(fēng)險(xiǎn)損失度,可通過式(7)計(jì)算得到:
式中:Di代表危害指標(biāo)對(duì)應(yīng)的危害程度;Wi為社會(huì)影響因子,由于人為影響或社會(huì)流動(dòng)性食品風(fēng)險(xiǎn)因素的損失度比實(shí)際嚴(yán)重;為危害指標(biāo)對(duì)應(yīng)的污染指數(shù)[15]。設(shè)xij代表第i個(gè)危害指標(biāo)測(cè)試試驗(yàn)中存在的第j條檢驗(yàn)數(shù)據(jù)值。計(jì)算危害指標(biāo)的污染指數(shù)
式中:li1為在食品含量中第i個(gè)危害指標(biāo)對(duì)應(yīng)的危險(xiǎn)值;li2為國(guó)標(biāo)中的限量值;J為第i個(gè)危害指標(biāo)測(cè)試試驗(yàn)的檢驗(yàn)總次數(shù)。
2.1.3 風(fēng)險(xiǎn)等級(jí)評(píng)定
由于風(fēng)險(xiǎn)是損失度與可能性的二元函數(shù),基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型通過基于風(fēng)險(xiǎn)矩陣的風(fēng)險(xiǎn)結(jié)果表現(xiàn)形式對(duì)風(fēng)險(xiǎn)結(jié)果進(jìn)行直觀的描述。
在食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型中,通過式(9)對(duì)風(fēng)險(xiǎn)進(jìn)行計(jì)算:
在第一象限內(nèi)不同半徑的圓的分布與不同等級(jí)風(fēng)險(xiǎn)分布近似,通過式(10)對(duì)單個(gè)危害指標(biāo)對(duì)應(yīng)的風(fēng)險(xiǎn)值進(jìn)行計(jì)算:
通過度量風(fēng)險(xiǎn)損失度與風(fēng)險(xiǎn)可能性的方法對(duì)風(fēng)險(xiǎn)等級(jí)進(jìn)行綜合考慮。
2.2.1 風(fēng)險(xiǎn)可能性
度量各個(gè)風(fēng)險(xiǎn)因素在單種食品中的風(fēng)險(xiǎn),由危害指標(biāo)產(chǎn)生的風(fēng)險(xiǎn)等級(jí)最大值對(duì)應(yīng)的風(fēng)險(xiǎn)可能性對(duì)單種食品產(chǎn)生風(fēng)險(xiǎn)的可能性進(jìn)行決定,即:
式中:Pnm為第n種食品在第m類食品中產(chǎn)生風(fēng)險(xiǎn)的可能性;max{·}為取最大值操作;I為食品危害指標(biāo)的總數(shù)。
2.2.2 風(fēng)險(xiǎn)損失度
通常由危害指標(biāo)產(chǎn)生的風(fēng)險(xiǎn)等級(jí)最大值對(duì)應(yīng)的風(fēng)險(xiǎn)損失度決定單種食品對(duì)應(yīng)的損失度:
式中:Snm代表第n中食品在第m類風(fēng)險(xiǎn)食品中對(duì)應(yīng)的風(fēng)險(xiǎn)損失度;Znm在區(qū)間[0,1]內(nèi)取值,表示食品管理控制因子,食品管理控制因子隨著食品管理控制管理力度的增強(qiáng)而增大,食品造成的損失度隨著管理力度的增強(qiáng)而減小。
2.2.3 風(fēng)險(xiǎn)等級(jí)評(píng)定
在風(fēng)險(xiǎn)等級(jí)矩陣中引入量化處理后的單種食品產(chǎn)生風(fēng)險(xiǎn)的損失度和可能性,獲得單種食品對(duì)應(yīng)的風(fēng)險(xiǎn)等級(jí),風(fēng)險(xiǎn)值Rnm可通過式(13)計(jì)算得到:
通過食品總體匯總加權(quán)系數(shù)加權(quán)求和各類食品對(duì)應(yīng)的風(fēng)險(xiǎn)可能性,通過公式計(jì)算食品總體產(chǎn)生風(fēng)險(xiǎn)對(duì)應(yīng)的可能性通過食品總體匯總加權(quán)系數(shù)加權(quán)求和各類食品對(duì)應(yīng)的風(fēng)險(xiǎn)損失度在風(fēng)險(xiǎn)等級(jí)矩陣中代入量化處理后的P和S,獲得食品安全總體狀況對(duì)應(yīng)的風(fēng)險(xiǎn)等級(jí),通過式(14)對(duì)具體風(fēng)險(xiǎn)評(píng)價(jià)值進(jìn)行計(jì)算:
為了驗(yàn)證基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的整體有效性,需要對(duì)基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型進(jìn)行測(cè)試,此次測(cè)試在MyEclipse 8.6軟件中完成,分別采用基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型、基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法和基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行測(cè)試,通過分析數(shù)據(jù)所用的時(shí)長(zhǎng)比較,對(duì)比不同方法的實(shí)時(shí)性效果,測(cè)試結(jié)果如圖1所示。
圖1(a)為基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)管模型的測(cè)試結(jié)果,分析圖1(a)可知,采用基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)管模型進(jìn)行測(cè)試時(shí),在多次迭代中分析數(shù)據(jù)所用的時(shí)間均低于0.4 s;圖1(b)為基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果,分析圖1(b)可知,采用基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行測(cè)試時(shí),在第3次迭代過程中分析數(shù)據(jù)所用的時(shí)間高達(dá)0.7 s;圖1(c)為基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果,分析圖1(c)可知,采用基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行測(cè)試時(shí),在第1次迭代中分析數(shù)據(jù)所用的時(shí)間高達(dá)0.8 s。對(duì)比基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型、基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法和基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果可知,基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型分析數(shù)據(jù)所用的時(shí)間最短,因?yàn)榛诖髷?shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè)之前通過大數(shù)據(jù)挖掘技術(shù)對(duì)食品數(shù)據(jù)進(jìn)行降維處理,降低了數(shù)據(jù)量,縮短了分析數(shù)據(jù)所用的時(shí)間,提高了基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的實(shí)時(shí)性。
圖1 不同方法的數(shù)據(jù)分析時(shí)間對(duì)比
在食品安全風(fēng)險(xiǎn)監(jiān)測(cè)過程中需要對(duì)食品風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià),分別采用基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型和基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行測(cè)試,對(duì)比兩種方法所用的評(píng)價(jià)時(shí)間,測(cè)試結(jié)果如表1所示。
表1中,CS代表的是試驗(yàn)次數(shù);TJ代表的是評(píng)價(jià)食品安全風(fēng)險(xiǎn)花費(fèi)的時(shí)間,單位為秒;SJ代表的是基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型;RO代表的是基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法;PJ代表的是5次迭代的平均評(píng)價(jià)時(shí)間。分析表1中的數(shù)據(jù)可知,在5次迭代中基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型所用的評(píng)價(jià)時(shí)間均低于基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法所用的評(píng)價(jià)時(shí)間,因?yàn)榛诖髷?shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型根據(jù)區(qū)域內(nèi)食品的跟蹤抽樣檢測(cè)結(jié)果確定具體危害指標(biāo),其降低了選取評(píng)價(jià)指標(biāo)花費(fèi)時(shí)間,提高了基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的評(píng)價(jià)效率。
表1 評(píng)價(jià)時(shí)間
為了進(jìn)一步驗(yàn)證基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的整體有效性,分別采用基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型、基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法和基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法進(jìn)行測(cè)試,對(duì)不同檢測(cè)方法的監(jiān)測(cè)準(zhǔn)確率進(jìn)行對(duì)比,其測(cè)試結(jié)果如圖2所示。
圖2 不同方法的監(jiān)測(cè)準(zhǔn)確率
圖2(a)為基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的測(cè)試結(jié)果,分析圖2(a)可知,采用基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè)時(shí),獲得的監(jiān)測(cè)準(zhǔn)確率均高于90%;圖2(b)為基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果,分析圖2(b)可知,采用基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè)時(shí),獲得的監(jiān)測(cè)準(zhǔn)確率在70%附近波動(dòng);圖2(c)為基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果,分析圖2(c)可知,采用基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法對(duì)食品安全風(fēng)險(xiǎn)進(jìn)行監(jiān)測(cè)時(shí),獲得的監(jiān)測(cè)準(zhǔn)確率在60%附近波動(dòng)。對(duì)比基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型、基于Rosetta粗糙集理論的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法和基于最鄰近距離空間分析法的食品安全風(fēng)險(xiǎn)監(jiān)測(cè)方法的測(cè)試結(jié)果可知,基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的監(jiān)測(cè)準(zhǔn)確率最高,因?yàn)榛诖髷?shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型通過對(duì)引起食品安全的風(fēng)險(xiǎn)因素的風(fēng)險(xiǎn)損失度和風(fēng)險(xiǎn)可能性進(jìn)行綜合評(píng)估,實(shí)現(xiàn)食品安全風(fēng)險(xiǎn)的智能監(jiān)測(cè),提高了基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型的監(jiān)測(cè)準(zhǔn)確率。
研究提出的基于大數(shù)據(jù)挖掘的食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型,對(duì)數(shù)據(jù)進(jìn)行降維處理,在風(fēng)險(xiǎn)矩陣中引入風(fēng)險(xiǎn)損失度和風(fēng)險(xiǎn)可能性構(gòu)建食品安全風(fēng)險(xiǎn)智能監(jiān)測(cè)模型,解決了當(dāng)前方法中存在的問題,實(shí)時(shí)性和監(jiān)測(cè)準(zhǔn)確率有了較大提高。未來的工作將集中在提高數(shù)據(jù)的多維度多影響因素分析方面,更好地為食品檢測(cè)服務(wù)。